- Açıklama :
WikiHow, çevrimiçi WikiHow ( http://www.wikihow.com/ ) bilgi tabanını kullanan büyük ölçekli yeni bir veri kümesidir.
İki özellik vardır: - metin: wikihow metinleri yanıtlar. - başlık: özet olarak kalın satırlar.
İki ayrı versiyon vardır: - tümü: makaleler olarak tüm paragrafların birleştirilmesinden ve referans özetleri olarak kalın çizgilerden oluşur. - eylül: her paragraftan ve özetinden oluşur.
https://github.com/mahnazkoupaee/WikiHow-Dataset adresinden "wikihowAll.csv" ve "wikihowSep.csv" dosyasını indirin ve bunları https://www.tensorflow.org/datasets/api_docs/python/tfds/ manuel klasörüne yerleştirin download/DownloadConfig Train/validation/test bölümleri yazarlar tarafından sağlanır. Kısa makaleleri (soyut uzunluk < 0.75 makale uzunluğu) kaldırmak ve fazla virgülleri temizlemek için ön işleme uygulanır.
Ana Sayfa : https://github.com/mahnazkoupaee/WikiHow-Dataset
Kaynak kodu :
tfds.summarization.Wikihow
Sürümler :
-
1.2.0
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
5.21 MiB
Veri kümesi boyutu :
Unknown size
Manuel indirme talimatları : Bu veri kümesi, kaynak verileri download_config.manual_dir içine manuel olarak
download_config.manual_dir
gerektirir (varsayılanı~/tensorflow_datasets/downloads/manual/
):
Dosyalara bağlantılar https://github.com/mahnazkoupaee/WikiHow-Dataset adresinde bulunabilir. Lütfen hem wikihowAll.csv hem de wikihowSep.csv'yi indirin.Otomatik önbelleğe alındı ( belgeler ): Bilinmiyor
Denetlenen anahtarlar (bkz
as_supervised
doc ):('text', 'headline')
Şekil ( tfds.show_examples ): Desteklenmez.
Örnekler ( tfds.as_dataframe ): Eksik.
alıntı :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow/all (varsayılan yapılandırma)
Yapılandırma açıklaması : Makaleler olarak tüm paragrafların sıralanmasını ve referans özetleri olarak kalın çizgileri kullanın
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 5.577 |
'train' | 157.252 |
'validation' | 5.599 |
- Özellik yapısı :
FeaturesDict({
'headline': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
başlık | Metin | tf.string | ||
Metin | Metin | tf.string | ||
Başlık | Metin | tf.string |
wikihow/eylül
Yapılandırma açıklaması : her paragrafı ve özetini kullanın.
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 37.800 |
'train' | 1.060.732 |
'validation' | 37.932 |
- Özellik yapısı :
FeaturesDict({
'headline': Text(shape=(), dtype=tf.string),
'overview': Text(shape=(), dtype=tf.string),
'sectionLabel': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
başlık | Metin | tf.string | ||
genel bakış | Metin | tf.string | ||
bölümEtiket | Metin | tf.string | ||
Metin | Metin | tf.string | ||
Başlık | Metin | tf.string |