Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

reddit_tifu

  • Deskripsi :

Dataset Reddit, di mana TIFU menunjukkan nama subbreddit / r / tifu. Seperti yang didefinisikan dalam publikasi, styel "short" menggunakan judul sebagai ringkasan dan "long" menggunakan tldr sebagai ringkasan.

Fitur termasuk: - dokumen: teks posting tanpa tldr. - tldr: baris tldr. - title: judul dipangkas tanpa tldr. - up: suara positif. - skor: skor. - num_comments: jumlah komentar. - rasio_vote_rasio: rasio suara positif.

FeaturesDict({
    'documents': Text(shape=(), dtype=tf.string),
    'num_comments': tf.float32,
    'score': tf.float32,
    'title': Text(shape=(), dtype=tf.string),
    'tldr': Text(shape=(), dtype=tf.string),
    'ups': tf.float32,
    'upvote_ratio': tf.float32,
})
  • Kutipan :
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu / pendek (konfigurasi default)

  • Deskripsi konfigurasi : Menggunakan judul sebagai ringkasan.

  • Split :

Membagi Contoh
'train' 79.740

reddit_tifu / long

  • Deskripsi konfigurasi : Menggunakan TLDR sebagai ringkasan.

  • Split :

Membagi Contoh
'train' 42.139