Ayuda a proteger la Gran Barrera de Coral con TensorFlow en Kaggle Únete Challenge

Booksum

  • Descripción:

BookSum: una colección de conjuntos de datos para un resumen narrativo de formato largo

Actualmente, esta implementación solo admite resúmenes de libros y capítulos.

GitHub: https://github.com/salesforce/booksum

La carpeta manual debe contener los siguientes directorios:

- `booksum/`
- `all_chapterized_books/`
  • Auto-caché ( documentación ): Sí (ensayo, validación), solamente cuando está shuffle_files=False (tren)

  • características:

FeaturesDict({
    'document': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
})
@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{'s}ci{'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

booksum / book (configuración predeterminada)

  • Descripción config: el resumen del libro a nivel

  • Conjunto de datos de tamaño: 208.81 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 46
'train' 312
'validation' 45

suma de libros / capítulo

  • Descripción config: resumen a nivel de capítulo

  • Conjunto de datos de tamaño: 216.71 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 1.083
'train' 6.524
'validation' 891