wikihow

  • Descrizione :

WikiHow è un nuovo set di dati su larga scala che utilizza la base di conoscenza online WikiHow ( http://www.wikihow.com/ ).

Ci sono due caratteristiche: - testo: wikihow risponde ai testi. - titolo: righe in grassetto come riepilogo.

Ne esistono due versioni distinte: - tutto: costituito dalla concatenazione di tutti i paragrafi come gli articoli e le righe in grassetto come i riassunti di riferimento. - sep: composto da ciascun paragrafo e dal suo sommario.

Scarica "wikihowAll.csv" e "wikihowSep.csv" da https://github.com/mahnazkoupaee/WikiHow-Dataset e inseriscili nella cartella manuale https://www.tensorflow.org/datasets/api_docs/python/tfds/ download/DownloadConfig Train/validation/test split sono forniti dagli autori. La preelaborazione viene applicata per rimuovere articoli brevi (lunghezza astratta <0,75 lunghezza articolo) e ripulire le virgole extra.

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow/all (configurazione predefinita)

  • Descrizione della configurazione : utilizza la concatenazione di tutti i paragrafi come articoli e le righe in grassetto come riepiloghi di riferimento

  • Dimensione del set di dati: 531.56 MiB

  • Divisioni :

Diviso Esempi
'test' 5.577
'train' 157,252
'validation' 5.599
  • Struttura delle caratteristiche :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
titolo Testo corda
testo Testo corda
titolo Testo corda

wikihow/set

  • Descrizione della configurazione : usa ogni paragrafo e il suo sommario.

  • Dimensione del set di dati: 1.07 GiB

  • Divisioni :

Diviso Esempi
'test' 37.800
'train' 1.060.732
'validation' 37.932
  • Struttura delle caratteristiche :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'overview': Text(shape=(), dtype=string),
    'sectionLabel': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
titolo Testo corda
panoramica Testo corda
sectionLabel Testo corda
testo Testo corda
titolo Testo corda