Ayuda a proteger la Gran Barrera de Coral con TensorFlow en Kaggle Únete Challenge

wikihow

  • Descripción:

WikiHow es un nuevo conjunto de datos a gran escala utilizando la línea WikiHow ( http://www.wikihow.com/ base de conocimientos).

Hay dos características: - texto: wikihow responde a los textos. - título: líneas en negrita como resumen.

Hay dos versiones independientes: - todas: consiste en la concatenación de todos los párrafos como artículos y las líneas en negrita como resúmenes de referencia. - sep: compuesto por cada párrafo y su resumen.

Descargar "wikihowAll.csv" y "wikihowSep.csv" de https://github.com/mahnazkoupaee/WikiHow-Dataset y colocarlos en la carpeta Manual https://www.tensorflow.org/datasets/api_docs/python/tfds/ descargar / DownloadConfig tren / validación / escisiones de prueba son proporcionados por los autores. El procesamiento previo se aplica para eliminar artículos cortos (longitud del resumen <0,75 longitud del artículo) y limpiar las comas adicionales.

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow / all (configuración predeterminada)

  • Descripción config: Usar la concatenación de todos los párrafos como los artículos y las líneas gruesas como los resúmenes de referencia

  • Fraccionamientos:

Separar Ejemplos de
'test' 5.577
'train' 157,252
'validation' 5.599
  • características:
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

wikihow / sep

  • Descripción config: utilizar cada párrafo y su resumen.

  • Fraccionamientos:

Separar Ejemplos de
'test' 37,800
'train' 1.060.732
'validation' 37,932
  • características:
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'overview': Text(shape=(), dtype=tf.string),
    'sectionLabel': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})