articles scientifiques

  • Description:

Les ensembles de données d'articles scientifiques contiennent deux ensembles de documents longs et structurés. Les ensembles de données sont obtenus à partir des référentiels ArXiv et PubMed OpenAccess.

"arxiv" et "pubmed" ont deux fonctionnalités :

  • article : le corps du document, les pages séparées par "/n".
  • résumé : le résumé du document, les pages séparées par "/n".
  • section_names : titres des sections, séparés par "/n".

  • Page d' accueil: https://github.com/armancohan/long-summarization

  • Code source: tfds.summarization.ScientificPapers

  • versions:

    • 1.1.0 : Aucune note de version.
    • 1.1.1 (par défaut): Aucune note de version.
  • Taille du téléchargement: 4.20 GiB

  • Mis en cache automatique ( documentation ): Non

  • Caractéristiques:

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'article': Text(shape=(), dtype=tf.string),
    'section_names': Text(shape=(), dtype=tf.string),
})
@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

Scientific_papers/arxiv (configuration par défaut)

  • Description Config: Les documents du référentiel ArXiv.

  • Taille Dataset: 7.07 GiB

  • scissions:

Diviser Exemples
'test' 6 440
'train' 203 037
'validation' 6 436

articles_scientifiques/pubmed

  • Description Config: Les documents de dépôt PubMed.

  • Taille Dataset: 2.34 GiB

  • scissions:

Diviser Exemples
'test' 6 658
'train' 119 924
'validation' 6 633