wikicomment

  • Description:

WikiHow est un nouveau jeu de données à grande échelle en utilisant la WikiHow en ligne ( http://www.wikihow.com/ base de connaissances).

Il y a deux fonctionnalités : - texte : wikihow répond aux textes. - titre : lignes en gras en guise de résumé.

Il existe deux versions distinctes : - toutes : constituées de la concaténation de tous les paragraphes en tant qu'articles et des lignes en gras en tant que résumés de référence. - sep : composé de chaque paragraphe et de son résumé.

Télécharger « wikihowAll.csv » et « wikihowSep.csv » de https://github.com/mahnazkoupaee/WikiHow-Dataset et placez - les dans le dossier manuel https://www.tensorflow.org/datasets/api_docs/python/tfds/ télécharger / DownloadConfig train / validation / fractionnements de test sont fournis par les auteurs. Le prétraitement est appliqué pour supprimer les articles courts (longueur de l'abstrait < 0,75 longueur de l'article) et nettoyer les virgules supplémentaires.

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow/all (configuration par défaut)

  • Description Config: Utilisez la concaténation de tous les paragraphes que les articles et les lignes audacieuses que les résumés de référence

  • scissions:

Diviser Exemples
'test' 5 577
'train' 157.252
'validation' 5 599
  • Caractéristiques:
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

wikihow/sep

  • Description Config: utiliser chaque paragraphe et son résumé.

  • scissions:

Diviser Exemples
'test' 37 800
'train' 1 060 732
'validation' 37 932
  • Caractéristiques:
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'overview': Text(shape=(), dtype=tf.string),
    'sectionLabel': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})