Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

redakcja

  • opis:

NEWSROOM to duży zbiór danych do szkolenia i oceny systemów podsumowujących. Zawiera 1,3 miliona artykułów i streszczeń napisanych przez autorów i redaktorów w redakcjach 38 głównych publikacji.

Funkcje zestawu danych obejmują: - tekst: Wprowadź tekst wiadomości. - podsumowanie: Podsumowanie wiadomości. Oraz dodatkowe funkcje: - tytuł: tytuł wiadomości. - url: adres URL wiadomości. - data: data artykułu. - gęstość: gęstość ekstrakcyjna. - krycie: krycie ekstrakcyjne. - kompresja: stopień kompresji. - Density_bin: niska, średnia, wysoka. - cover_bin: ekstrakcyjny, abstrakcyjny. - kompresja_bin: niski, średni, wysoki.

Ten zbiór danych można pobrać na żądanie. Rozpakuj całą zawartość „train.jsonl, dev.josnl, test.jsonl” do folderu tfds.

  • Strona domowa: https://summari.es

  • Kod źródłowy: tfds.summarization.Newsroom

  • wersje:

    • 1.0.0 (domyślnie): Brak Uwagi do wydania.
  • Wielkość pliku: Unknown size

  • Zbiór danych rozmiar: Unknown size

  • Ręczne pobieranie instrukcje: Ten zestaw danych wymaga, aby ręcznie pobrać dane źródłowe do download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ )
    Należy pobrać zestaw danych z https://summari.es/download/ Strona internetowa wymaga rejestracji. Po pobraniu umieść pliki dev.jsonl, test.jsonl i train.jsonl w manual_dir.

  • Auto-buforowane ( dokumentacja ): Nieznany

  • dzieli:

Podział Przykłady
'test' 108 862
'train' 995 041
'validation' 108 837
  • Cechy:
FeaturesDict({
    'compression': tf.float32,
    'compression_bin': Text(shape=(), dtype=tf.string),
    'coverage': tf.float32,
    'coverage_bin': Text(shape=(), dtype=tf.string),
    'date': Text(shape=(), dtype=tf.string),
    'density': tf.float32,
    'density_bin': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
  • cytat:
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}