wikihow

  • Açıklama :

WikiHow, çevrimiçi WikiHow ( http://www.wikihow.com/ ) bilgi tabanını kullanan yeni bir büyük ölçekli veri kümesidir.

İki özellik vardır: - metin: wikihow metinleri yanıtlar. - başlık: özet olarak kalın satırlar.

İki ayrı versiyon vardır: - tümü: makaleler olarak tüm paragrafların birleştirilmesinden ve referans özetleri olarak kalın satırlardan oluşur. - sep: her paragraftan ve özetinden oluşur.

"wikihowAll.csv" ve "wikihowSep.csv"yi https://github.com/mahnazkoupaee/WikiHow-Dataset adresinden indirin ve https://www.tensorflow.org/datasets/api_docs/python/tfds/ kılavuz klasörüne yerleştirin. download/DownloadConfig Tren/doğrulama/test bölmeleri yazarlar tarafından sağlanmaktadır. Kısa makaleleri (soyut uzunluğu < 0,75 makale uzunluğu) kaldırmak ve fazladan virgülleri temizlemek için ön işleme uygulanır.

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow/all (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Makaleler olarak tüm paragrafların birleşimini ve referans özetleri olarak kalın satırları kullanın

  • Veri kümesi boyutu : 531.56 MiB

  • bölmeler :

Bölmek örnekler
'test' 5.577
'train' 157.252
'validation' 5.599
  • Özellik yapısı :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
başlık Metin sicim
Metin Metin sicim
Başlık Metin sicim

wikihow/eylül

  • Yapılandırma açıklaması : her paragrafı ve özetini kullanın.

  • Veri kümesi boyutu : 1.07 GiB

  • bölmeler :

Bölmek örnekler
'test' 37.800
'train' 1.060.732
'validation' 37.932
  • Özellik yapısı :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'overview': Text(shape=(), dtype=string),
    'sectionLabel': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
başlık Metin sicim
genel bakış Metin sicim
bölüm etiketi Metin sicim
Metin Metin sicim
Başlık Metin sicim