Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

publikacje naukowe

  • opis:

Zbiory danych artykułów naukowych zawierają dwa zestawy długich i ustrukturyzowanych dokumentów. Zbiory danych są pozyskiwane z repozytoriów ArXiv i PubMed OpenAccess.

Zarówno „arxiv”, jak i „pubmed” mają dwie cechy:

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'article': Text(shape=(), dtype=tf.string),
    'section_names': Text(shape=(), dtype=tf.string),
})
@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

Scientific_papers/arxiv (domyślna konfiguracja)

  • Opis config: Dokumenty z arXiv repozytorium.

  • Zbiór danych rozmiar: 7.07 GiB

  • dzieli:

Podział Przykłady
'test' 6440
'train' 203 037
'validation' 6436

artykuły_naukowe/publikacje

  • Opis config: Dokumenty z repozytorium PubMed.

  • Zestaw danych rozmiar: 2.34 GiB

  • dzieli:

Podział Przykłady
'test' 6658
'train' 119 924
'validation' 6633