Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

s.19

  • opis:

Ten zbiór danych zawiera test porównawczy modelowania języka PG-19. Zawiera ona zestaw książek pochodzących z projektu Project Gutenberg Books ( https://www.gutenberg.org ), które zostały opublikowane przed 1919 zawiera również metadane tytułów książkowych i daty publikacji. PG-19 jest ponad dwukrotnie większy od benchmarku Billion Word i zawiera dokumenty, które są średnio 20 razy dłuższe niż benchmark modelowania języka dalekiego zasięgu WikiText.

Książki są podzielone na pociąg, walidację i zestaw testowy. Metadane książek są przechowywane w pliku metadata.csv, który zawiera (identyfikator_książki, tytuł_krótkiej_książki, data_publikacji, link_książki).

Podział Przykłady
'test' 100
'train' 28 602
'validation' 50
  • Cechy:
FeaturesDict({
    'book_id': tf.int32,
    'book_link': tf.string,
    'book_text': Text(shape=(), dtype=tf.string),
    'book_title': tf.string,
    'publication_date': tf.string,
})
  • cytat:
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}