reddit_tifu

  • 説明

Redditデータセット。TIFUはサブブレディット/ r / tifuの名前を示します。出版物で定義されているように、スタイエル「short」はタイトルを要約として使用し、「long」はtldrを要約として使用します。

機能は次のとおりです。-ドキュメント:tldrなしでテキストを投稿します。 --tldr:tldr行。 --title:tldrなしでトリミングされたタイトル。 -賛成:賛成。 -スコア:スコア。 --num_comments:コメントの数。 --upvote_ratio:賛成率。

FeaturesDict({
    'documents': Text(shape=(), dtype=tf.string),
    'num_comments': tf.float32,
    'score': tf.float32,
    'title': Text(shape=(), dtype=tf.string),
    'tldr': Text(shape=(), dtype=tf.string),
    'ups': tf.float32,
    'upvote_ratio': tf.float32,
})
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu / short(デフォルト設定)

  • コンフィグの説明:要約としてタイトルを使用します。

  • スプリット

スプリット
'train' 79,740

reddit_tifu / long

  • コンフィグの説明:要約としてTLDRを使用します。

  • スプリット

スプリット
'train' 42,139