hal19

Deskripsi :

Dataset ini berisi tolok ukur pemodelan bahasa PG-19. Ini termasuk satu set buku yang diambil dari proyek buku Proyek Gutenberg ( https://www.gutenberg.org ), yang diterbitkan sebelum 1919. Ini juga berisi metadata judul buku dan tanggal publikasi. PG-19 lebih dari dua kali lipat ukuran tolok ukur Miliar Kata dan berisi dokumen yang rata-rata 20X lebih panjang daripada tolok ukur pemodelan bahasa jangka panjang WikiText.

Buku dipartisi menjadi rangkaian kereta, validasi, dan pengujian. Metadata buku disimpan di metadata.csv yang berisi (book_id, short_book_title, publication_date, book_link).

Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/deepmind/pg19
Kode sumber : tfds.datasets.pg19.Builder
Versi :
- 0.1.1 (default): Tidak ada catatan rilis.
Ukuran unduhan : Unknown size
Ukuran dataset : 10.94 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'test'`	100
`'train'`	28.602
`'validation'`	50

Struktur fitur :

FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
book_id	Tensor	int32
book_link	Tensor	rangkaian
book_text	Teks	rangkaian
judul buku	Tensor	rangkaian
Tanggal penerbitan	Tensor	rangkaian

Kunci yang diawasi (Lihat as_supervised doc ): None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):

Kutipan :

@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}

Deskripsi :

Buku dipartisi menjadi rangkaian kereta, validasi, dan pengujian. Metadata buku disimpan di metadata.csv yang berisi (book_id, short_book_title, publication_date, book_link).

Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/deepmind/pg19
Kode sumber : tfds.datasets.pg19.Builder
Versi :
- 0.1.1 (default): Tidak ada catatan rilis.
Ukuran unduhan : Unknown size
Ukuran dataset : 10.94 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'test'`	100
`'train'`	28.602
`'validation'`	50

Struktur fitur :

FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
book_id	Tensor	int32
book_link	Tensor	rangkaian
book_text	Teks	rangkaian
judul buku	Tensor	rangkaian
Tanggal penerbitan	Tensor	rangkaian

Kunci yang diawasi (Lihat as_supervised doc ): None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):

Kutipan :

@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}

hal19 Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

hal19