reddit_tifu

  • Açıklama :

TIFU'nun subbreddit /r/tifu adını gösterdiği Reddit veri kümesi. Yayında tanımlandığı gibi, styel "kısa" özet olarak başlığı, "uzun" ise özet olarak tldr'yi kullanır.

Özellikler şunları içerir: - belge: tldr olmadan metin gönderin. - tldr: tldr satırı. - başlık: tldr olmadan kırpılmış başlık. - ups: upvotes. - puan: puan. - num_comments: yorum sayısı. - upvote_ratio: upvote oranı.

FeaturesDict({
    'documents': Text(shape=(), dtype=tf.string),
    'num_comments': tf.float32,
    'score': tf.float32,
    'title': Text(shape=(), dtype=tf.string),
    'tldr': Text(shape=(), dtype=tf.string),
    'ups': tf.float32,
    'upvote_ratio': tf.float32,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
belgeler Metin tf.string
num_comments tensör tf.float32
Puan tensör tf.float32
Başlık Metin tf.string
tldr Metin tf.string
Güç kaynağı tensör tf.float32
upvote_ratio tensör tf.float32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Özet olarak başlığı kullanma.

  • Bölmeler :

Bölmek Örnekler
'train' 79.740

reddit_tifu/uzun

  • Yapılandırma açıklaması : TLDR'yi özet olarak kullanma.

  • Bölmeler :

Bölmek Örnekler
'train' 42,139