Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

samsum

  • opis:

SAMSum Corpus zawiera ponad 16 tys. dialogów na czacie z ręcznie adnotowanymi podsumowaniami.

Istnieją dwie funkcje:

  • dialog: tekst dialogu.
  • podsumowanie: pisemne podsumowanie dialogu przez człowieka.
  • id: identyfikator przykładu.

  • Strona domowa: https://arxiv.org/src/1911.12237v2/anc

  • Kod źródłowy: tfds.summarization.Samsum

  • wersje:

    • 1.0.0 (domyślnie): Brak Uwagi do wydania.
  • Wielkość pliku: Unknown size

  • Zbiór danych rozmiar: 10.71 MiB

  • Ręczne pobieranie instrukcje: Ten zestaw danych wymaga, aby ręcznie pobrać dane źródłowe do download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ )
    Pobierz https://arxiv.org/src/1911.12237v2/anc/corpus.7z, rozpakować i umieścić train.json, val.json i test.json ręcznego follder.

  • Auto-buforowane ( dokumentacja ): Tak

  • dzieli:

Podział Przykłady
'test' 819
'train' 14 732
'validation' 818
  • Cechy:
FeaturesDict({
    'dialogue': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
})
  • cytat:
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}