Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

redação

Descrição :

NEWSROOM é um grande conjunto de dados para treinamento e avaliação de sistemas de resumo. Contém 1,3 milhão de artigos e resumos escritos por autores e editores nas redações de 38 grandes publicações.

Os recursos do conjunto de dados incluem:

text: Digite o texto da notícia.
resumo: Resumo das notícias.

E recursos adicionais:

título: título da notícia.
url: url da notícia.
data: data do artigo.
densidade: densidade extrativa.
cobertura: cobertura extrativa.
compressão: taxa de compressão.
densidade_bin: baixo, médio, alto.
coverage_bin: extrativo, abstrativo.
compressão_bin: baixo, médio, alto.

Este conjunto de dados pode ser baixado mediante solicitação. Descompacte todo o conteúdo "train.jsonl, dev.jsonl, test.jsonl" na pasta tfds.

Documentação Adicional : Explore em Papers With Code
Página inicial : https://summari.es
Código -fonte: tfds.datasets.newsroom.Builder
Versões :
- 1.0.0 (padrão): sem notas de versão.
Tamanho do download : Unknown size
Tamanho do conjunto de dados : 5.13 GiB
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
Você deve baixar o conjunto de dados de https://summari.es/download/ A página web requer registro. Após o download, coloque os arquivos dev.jsonl, test.jsonl e train.jsonl no manual_dir.
Armazenado em cache automaticamente ( documentação ): Não
Divisões :

Dividir	Exemplos
`'test'`	108.862
`'train'`	995.041
`'validation'`	108.837

Estrutura de recursos :

FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})

Documentação do recurso:

Recurso	Aula	Tipo D
	RecursosDict
compressão	tensor	float32
compressão_bin	Texto	corda
cobertura	tensor	float32
cobertura_bin	Texto	corda
data	Texto	corda
densidade	tensor	float32
densidade_bin	Texto	corda
resumo	Texto	corda
texto	Texto	corda
título	Texto	corda
url	Texto	corda

Chaves supervisionadas (Veja as_supervised doc ): ('text', 'summary')
Figura ( tfds.show_examples ): Não compatível.
Exemplos ( tfds.as_dataframe ):

Citação :

@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}

redação Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

redação