wikihow

  • Descripción :

WikiHow es un nuevo conjunto de datos a gran escala que utiliza la base de conocimiento en línea de WikiHow ( http://www.wikihow.com/ ).

Hay dos características: - texto: wikihow responde textos. - titular: líneas en negrita a modo de resumen.

Hay dos versiones separadas: - all: consiste en la concatenación de todos los párrafos como los artículos y las líneas en negrita como los resúmenes de referencia. - sep: formado por cada párrafo y su resumen.

Descargue "wikihowAll.csv" y "wikihowSep.csv" de https://github.com/mahnazkoupaee/WikiHow-Dataset y colóquelos en la carpeta manual https://www.tensorflow.org/datasets/api_docs/python/tfds/ download/DownloadConfig Train/validation/test splits son proporcionados por los autores. Se aplica preprocesamiento para eliminar artículos breves (longitud del resumen < 0,75 de longitud del artículo) y limpiar las comas adicionales.

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow/all (configuración predeterminada)

  • Descripción de la configuración : use la concatenación de todos los párrafos como artículos y las líneas en negrita como resúmenes de referencia

  • Divisiones :

Separar Ejemplos
'test' 5,577
'train' 157,252
'validation' 5,599
  • Estructura de características :
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
titular Texto tf.cadena
texto Texto tf.cadena
título Texto tf.cadena

wikihow/septiembre

  • Descripción de la configuración : utiliza cada párrafo y su resumen.

  • Divisiones :

Separar Ejemplos
'test' 37,800
'train' 1,060,732
'validation' 37,932
  • Estructura de características :
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'overview': Text(shape=(), dtype=tf.string),
    'sectionLabel': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
titular Texto tf.cadena
visión general Texto tf.cadena
secciónEtiqueta Texto tf.cadena
texto Texto tf.cadena
título Texto tf.cadena