reddit_tifu

 • Açıklama :

TIFU'nun subbreddit /r/tifu adını gösterdiği Reddit veri kümesi. Yayında tanımlandığı gibi, styel "kısa" özet olarak başlığı, "uzun" ise özet olarak tldr'yi kullanır.

Özellikler şunları içerir: - belge: tldr olmadan metin gönderin. - tldr: tldr satırı. - başlık: tldr olmadan kırpılmış başlık. - ups: upvotes. - puan: puan. - num_comments: yorum sayısı. - upvote_ratio: upvote oranı.

FeaturesDict({
  'documents': Text(shape=(), dtype=tf.string),
  'num_comments': tf.float32,
  'score': tf.float32,
  'title': Text(shape=(), dtype=tf.string),
  'tldr': Text(shape=(), dtype=tf.string),
  'ups': tf.float32,
  'upvote_ratio': tf.float32,
})
 • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
belgeler Metin tf.string
num_comments tensör tf.float32
Puan tensör tf.float32
Başlık Metin tf.string
tldr Metin tf.string
Güç kaynağı tensör tf.float32
upvote_ratio tensör tf.float32
@misc{kim2018abstractive,
  title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
  author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
  year={2018},
  eprint={1811.00783},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}

reddit_tifu/short (varsayılan yapılandırma)

 • Yapılandırma açıklaması : Özet olarak başlığı kullanma.

 • Bölmeler :

Bölmek Örnekler
'train' 79.740

reddit_tifu/uzun

 • Yapılandırma açıklaması : TLDR'yi özet olarak kullanma.

 • Bölmeler :

Bölmek Örnekler
'train' 42,139