Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

soma de livros

Descrição :

BookSum: uma coleção de conjuntos de dados para resumo narrativo de formato longo

Esta implementação atualmente suporta apenas resumos de livros e capítulos.

GitHub: https://github.com/salesforce/booksum

Documentação Adicional : Explore em Papers With Code
Página inicial : https://github.com/salesforce/booksum
Código -fonte: tfds.datasets.booksum.Builder
Versões :
- 1.0.0 (padrão): versão inicial.
Tamanho do download : Unknown size
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
1) Acesse https://github.com/salesforce/booksum e execute as etapas 1 a 3. Coloque todo o projeto booksum git na pasta manual. 2) Baixe os livros com capítulos em https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip e descompacte na pasta manual.

A pasta manual deve conter os seguintes diretórios:

- `booksum/`
- `all_chapterized_books/`

Cache automático ( documentação ): Sim (teste, validação), somente quando shuffle_files=False (train)
Estrutura de recursos :

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})

Documentação do recurso:

Característica	Classe	Tipo D
	RecursosDict
documento	Texto	corda
resumo	Texto	corda

Chaves supervisionadas (consulte as_supervised doc ): ('document', 'summary')
Figura ( tfds.show_examples ): Não suportado.
Citação :

@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

booksum/book (configuração padrão)

Descrição da configuração : resumo em nível de livro
Tamanho do conjunto de dados : 208.81 MiB
Divisões :

Dividir	Exemplos
`'test'`	46
`'train'`	312
`'validation'`	45

Exemplos ( tfds.as_dataframe ):

livro/capítulo

Descrição da configuração : resumo em nível de capítulo
Tamanho do conjunto de dados : 216.71 MiB
Divisões :

Dividir	Exemplos
`'test'`	1.083
`'train'`	6.524
`'validation'`	891

Exemplos ( tfds.as_dataframe ):

soma de livros Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

booksum/book (configuração padrão)

livro/capítulo

soma de livros