wikihow

 • Açıklama :

WikiHow, çevrimiçi WikiHow ( http://www.wikihow.com/ ) bilgi tabanını kullanan büyük ölçekli yeni bir veri kümesidir.

İki özellik vardır: - metin: wikihow metinleri yanıtlar. - başlık: özet olarak kalın satırlar.

İki ayrı versiyon vardır: - tümü: makaleler olarak tüm paragrafların birleştirilmesinden ve referans özetleri olarak kalın çizgilerden oluşur. - eylül: her paragraftan ve özetinden oluşur.

https://github.com/mahnazkoupaee/WikiHow-Dataset adresinden "wikihowAll.csv" ve "wikihowSep.csv" dosyasını indirin ve bunları https://www.tensorflow.org/datasets/api_docs/python/tfds/ manuel klasörüne yerleştirin download/DownloadConfig Train/validation/test bölümleri yazarlar tarafından sağlanır. Kısa makaleleri (soyut uzunluk < 0.75 makale uzunluğu) kaldırmak ve fazla virgülleri temizlemek için ön işleme uygulanır.

@misc{koupaee2018wikihow,
  title={WikiHow: A Large Scale Text Summarization Dataset},
  author={Mahnaz Koupaee and William Yang Wang},
  year={2018},
  eprint={1810.09305},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}

wikihow/all (varsayılan yapılandırma)

 • Yapılandırma açıklaması : Makaleler olarak tüm paragrafların sıralanmasını ve referans özetleri olarak kalın çizgileri kullanın

 • Bölmeler :

Bölmek Örnekler
'test' 5.577
'train' 157.252
'validation' 5.599
 • Özellik yapısı :
FeaturesDict({
  'headline': Text(shape=(), dtype=tf.string),
  'text': Text(shape=(), dtype=tf.string),
  'title': Text(shape=(), dtype=tf.string),
})
 • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
başlık Metin tf.string
Metin Metin tf.string
Başlık Metin tf.string

wikihow/eylül

 • Yapılandırma açıklaması : her paragrafı ve özetini kullanın.

 • Bölmeler :

Bölmek Örnekler
'test' 37.800
'train' 1.060.732
'validation' 37.932
 • Özellik yapısı :
FeaturesDict({
  'headline': Text(shape=(), dtype=tf.string),
  'overview': Text(shape=(), dtype=tf.string),
  'sectionLabel': Text(shape=(), dtype=tf.string),
  'text': Text(shape=(), dtype=tf.string),
  'title': Text(shape=(), dtype=tf.string),
})
 • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
başlık Metin tf.string
genel bakış Metin tf.string
bölümEtiket Metin tf.string
Metin Metin tf.string
Başlık Metin tf.string