papéis científicos

Descrição :

Os conjuntos de dados de artigos científicos contêm dois conjuntos de documentos longos e estruturados. Os conjuntos de dados são obtidos dos repositórios ArXiv e PubMed OpenAccess.

Ambos "arxiv" e "pubmed" têm dois recursos:

artigo: corpo do documento, parágrafos separados por "/n".
abstract: resumo do documento, parágrafos separados por "/n".
section_names: títulos das seções, separados por "/n".
Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/armancohan/long-summarization
Código -fonte: tfds.datasets.scientific_papers.Builder
Versões :
- 1.1.0 : Sem notas de versão.
- 1.1.1 (padrão): Sem notas de versão.
Tamanho do download : 4.20 GiB
Armazenado em cache automaticamente ( documentação ): Não
Estrutura de recursos :

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'article': Text(shape=(), dtype=string),
    'section_names': Text(shape=(), dtype=string),
})

Documentação do recurso:

Funcionalidade	Aula	Tipo D
	RecursosDict
resumo	Texto	fragmento
artigo	Texto	fragmento
section_names	Texto	fragmento

Chaves supervisionadas (ver as_supervised doc ): ('article', 'abstract')
Figura ( tfds.show_examples ): Não compatível.
Citação :

@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

Scientific_papers/arxiv (configuração padrão)

Descrição da configuração : Documentos do repositório ArXiv.
Tamanho do conjunto de dados : 7.07 GiB
Divisões :

Dividir	Exemplos
`'test'`	6.440
`'train'`	203.037
`'validation'`	6.436

Exemplos ( tfds.as_dataframe ):

artigos_científicos/pubmed

Descrição da configuração : Documentos do repositório PubMed.
Tamanho do conjunto de dados : 2.34 GiB
Divisões :

Dividir	Exemplos
`'test'`	6.658
`'train'`	119.924
`'validation'`	6.633

Exemplos ( tfds.as_dataframe ):

papéis científicos Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Scientific_papers/arxiv (configuração padrão)

artigos_científicos/pubmed

papéis científicos