O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

bookum

  • Descrição:

BookSum: uma coleção de conjuntos de dados para resumos narrativos longos

Esta implementação atualmente suporta apenas resumos de livros e capítulos.

GitHub: https://github.com/salesforce/booksum

A pasta do manual deve conter os seguintes diretórios:


- `booksum/`
- `all_chapterized_books/`
  • Cache-Auto ( documentação ): Sim (ensaio, validação), Só quando shuffle_files=False (trem)

  • Características:

FeaturesDict({
    'document': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
})
@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{'s}ci{'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

booksum / book (configuração padrão)

  • A inscrição Config: sumarização de nível Livro

  • Dataset size: 208.81 MiB

  • desdobramentos:

Dividir Exemplos
'test' 46
'train' 312
'validation' 45

booksum / capítulo

  • A inscrição Config: sumarização de nível capítulo

  • Dataset size: 216.71 MiB

  • desdobramentos:

Dividir Exemplos
'test' 1.083
'train' 6.524
'validation' 891