Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

ruang wartawan

  • Deskripsi :

NEWSROOM adalah kumpulan data besar untuk melatih dan mengevaluasi sistem peringkasan. Ini berisi 1,3 juta artikel dan ringkasan yang ditulis oleh penulis dan editor di ruang redaksi dari 38 publikasi utama.

Fitur set data meliputi: - teks: Memasukkan teks berita. - ringkasan: Ringkasan berita. Dan fitur tambahan: - title: judul berita. - url: url berita. - tanggal: tanggal artikel. - kepadatan: kepadatan ekstraktif. - cakupan: cakupan ekstraktif. - kompresi: rasio kompresi. - density_bin: rendah, sedang, tinggi. - coverage_bin: ekstraktif, abstraktif. - compression_bin: rendah, sedang, tinggi.

Dataset ini dapat diunduh atas permintaan. Unzip semua konten "train.jsonl, dev.josnl, test.jsonl" ke folder tfds.

  • Situs web : https://summari.es

  • Kode sumber : tfds.summarization.Newsroom

  • Versi :

    • 1.0.0 (default): Tidak ada catatan rilis.
  • Ukuran unduhan : Unknown size

  • Ukuran kumpulan data : Unknown size

  • Petunjuk pengunduhan manual : Dataset ini mengharuskan Anda untuk mengunduh data sumber secara manual ke dalam download_config.manual_dir (defaultnya ~/tensorflow_datasets/downloads/manual/ ):
    Anda harus mendownload dataset dari https://summari.es/download/ Halaman web membutuhkan registrasi. Setelah mendownload, silahkan masukkan file dev.jsonl, test.jsonl dan train.jsonl ke manual_dir.

  • Cache otomatis ( dokumentasi ): Tidak diketahui

  • Split :

Membagi Contoh
'test' 108.862
'train' 995.041
'validation' 108.837
  • Fitur :
FeaturesDict({
    'compression': tf.float32,
    'compression_bin': Text(shape=(), dtype=tf.string),
    'coverage': tf.float32,
    'coverage_bin': Text(shape=(), dtype=tf.string),
    'date': Text(shape=(), dtype=tf.string),
    'density': tf.float32,
    'density_bin': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
.dll
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}