ruang wartawan

Deskripsi :

RUANG BERITA adalah kumpulan data besar untuk melatih dan mengevaluasi sistem peringkasan. Ini berisi 1,3 juta artikel dan ringkasan yang ditulis oleh penulis dan editor di ruang redaksi dari 38 publikasi utama.

Fitur kumpulan data meliputi:

teks: Masukkan teks berita.
ringkasan: Ringkasan untuk berita.

Dan fitur tambahan:

judul: judul berita.
url: url berita.
tanggal: tanggal artikel.
densitas: densitas ekstraktif.
cakupan: cakupan ekstraktif.
kompresi: rasio kompresi.
density_bin: rendah, sedang, tinggi.
coverage_bin: ekstraktif, abstraktif.
kompresi_bin: rendah, sedang, tinggi.

Kumpulan data ini dapat diunduh berdasarkan permintaan. Unzip semua isi "train.jsonl, dev.jsonl, test.jsonl" ke folder tfds.

Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://summari.es
Kode sumber : tfds.datasets.newsroom.Builder
Versi :
- 1.0.0 (default): Tidak ada catatan rilis.
Ukuran unduhan : Unknown size
Ukuran dataset : 5.13 GiB
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke download_config.manual_dir (default ke ~/tensorflow_datasets/downloads/manual/ ):
Anda harus mengunduh kumpulan data dari https://summari.es/download/ Halaman web memerlukan pendaftaran. Setelah mengunduh, harap letakkan file dev.jsonl, test.jsonl dan train.jsonl di manual_dir.
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'test'`	108.862
`'train'`	995.041
`'validation'`	108.837

Struktur fitur :

FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
kompresi	Tensor	float32
tempat_kompresi	Teks	rangkaian
cakupan	Tensor	float32
coverage_bin	Teks	rangkaian
tanggal	Teks	rangkaian
kepadatan	Tensor	float32
densitas_bin	Teks	rangkaian
ringkasan	Teks	rangkaian
teks	Teks	rangkaian
judul	Teks	rangkaian
url	Teks	rangkaian

Kunci yang diawasi (Lihat as_supervised doc ): ('text', 'summary')
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):

Kutipan :

@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}

ruang wartawan Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

ruang wartawan