- Deskripsi :
Dataset Reddit, di mana TIFU menunjukkan nama subbreddit / r / tifu. Seperti yang didefinisikan dalam publikasi, styel "short" menggunakan judul sebagai ringkasan dan "long" menggunakan tldr sebagai ringkasan.
Fitur termasuk: - dokumen: teks posting tanpa tldr. - tldr: baris tldr. - title: judul dipangkas tanpa tldr. - up: suara positif. - skor: skor. - num_comments: jumlah komentar. - rasio_vote_rasio: rasio suara positif.
Beranda : https://github.com/ctr4si/MMN
Kode sumber :
tfds.summarization.RedditTifu
Versi :
-
1.1.0
(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
639.54 MiB
Ukuran kumpulan data :
Unknown size
Cache otomatis ( dokumentasi ): Tidak diketahui
Fitur :
FeaturesDict({
'documents': Text(shape=(), dtype=tf.string),
'num_comments': tf.float32,
'score': tf.float32,
'title': Text(shape=(), dtype=tf.string),
'tldr': Text(shape=(), dtype=tf.string),
'ups': tf.float32,
'upvote_ratio': tf.float32,
})
- Kutipan :
@misc{kim2018abstractive,
title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
year={2018},
eprint={1811.00783},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Gambar ( tfds.show_examples ): Tidak didukung.
reddit_tifu / pendek (konfigurasi default)
Deskripsi konfigurasi : Menggunakan judul sebagai ringkasan.
Split :
Membagi | Contoh |
---|---|
'train' | 79.740 |
Kunci yang diawasi (Lihat
as_supervised
doc ):('documents', 'title')
Contoh ( tfds.as_dataframe ):
reddit_tifu / long
Deskripsi konfigurasi : Menggunakan TLDR sebagai ringkasan.
Split :
Membagi | Contoh |
---|---|
'train' | 42.139 |
Kunci yang diawasi (Lihat
as_supervised
doc ):('documents', 'tldr')
Contoh ( tfds.as_dataframe ):