- Deskripsi :
NEWSROOM adalah kumpulan data besar untuk melatih dan mengevaluasi sistem peringkasan. Ini berisi 1,3 juta artikel dan ringkasan yang ditulis oleh penulis dan editor di ruang redaksi dari 38 publikasi utama.
Fitur set data meliputi: - teks: Memasukkan teks berita. - ringkasan: Ringkasan berita. Dan fitur tambahan: - title: judul berita. - url: url berita. - tanggal: tanggal artikel. - kepadatan: kepadatan ekstraktif. - cakupan: cakupan ekstraktif. - kompresi: rasio kompresi. - density_bin: rendah, sedang, tinggi. - coverage_bin: ekstraktif, abstraktif. - compression_bin: rendah, sedang, tinggi.
Dataset ini dapat diunduh atas permintaan. Unzip semua konten "train.jsonl, dev.josnl, test.jsonl" ke folder tfds.
Situs web : https://summari.es
Kode sumber :
tfds.summarization.Newsroom
Versi :
-
1.0.0
(default): Tidak ada catatan rilis.
-
Ukuran unduhan :
Unknown size
Ukuran kumpulan data :
Unknown size
Petunjuk pengunduhan manual : Dataset ini mengharuskan Anda untuk mengunduh data sumber secara manual ke dalam
download_config.manual_dir
(defaultnya~/tensorflow_datasets/downloads/manual/
):
Anda harus mendownload dataset dari https://summari.es/download/ Halaman web membutuhkan registrasi. Setelah mendownload, silahkan masukkan file dev.jsonl, test.jsonl dan train.jsonl ke manual_dir.Cache otomatis ( dokumentasi ): Tidak diketahui
Split :
Membagi | Contoh |
---|---|
'test' | 108.862 |
'train' | 995.041 |
'validation' | 108.837 |
- Fitur :
FeaturesDict({
'compression': tf.float32,
'compression_bin': Text(shape=(), dtype=tf.string),
'coverage': tf.float32,
'coverage_bin': Text(shape=(), dtype=tf.string),
'date': Text(shape=(), dtype=tf.string),
'density': tf.float32,
'density_bin': Text(shape=(), dtype=tf.string),
'summary': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'url': Text(shape=(), dtype=tf.string),
})
.dllKunci yang diawasi (Lihat
as_supervised
doc ):('text', 'summary')
Kutipan :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):