- Açıklama :
Büyük Yelp İnceleme Veri Kümesi. Bu, ikili duygu sınıflandırması için bir veri kümesidir. Eğitim için 560.000 ve test için 38.000'lik bir dizi son derece kutupsal havlama incelemesi sağlıyoruz. ORIGIN Yelp incelemeleri veri seti, Yelp'ten gelen incelemelerden oluşur. Yelp Dataset Challenge 2015 verilerinden alınmıştır. Daha fazla bilgi için lütfen http://www.yelp.com/dataset adresine bakın.
Yelp incelemeleri polarite veri seti, yukarıdaki veri setinden Xiang Zhang (xiang.zhang@nyu.edu) tarafından oluşturulmuştur. İlk olarak aşağıdaki makalede bir metin sınıflandırma kıyaslaması olarak kullanılmıştır: Xiang Zhang, Junbo Zhao, Yann LeCun. Metin Sınıflandırması için Karakter Düzeyinde Evrişimli Ağlar. Sinirsel Bilgi İşleme Sistemlerindeki Gelişmeler 28 (NIPS 2015).
TANIM
Yelp incelemeleri polarite veri seti, yıldız 1 ve 2 negatif ve 3 ve 4 pozitif dikkate alınarak oluşturulmuştur. Her bir polarite için 280.000 eğitim numunesi ve 19.000 test numunesi rastgele alınır. Toplamda 560.000 eğitim numunesi ve 38.000 test numunesi bulunmaktadır. Negatif polarite sınıf 1 ve pozitif sınıf 2'dir.
Train.csv ve test.csv dosyaları, tüm eğitim örneklerini virgülle ayrılmış değerler olarak içerir. İçlerinde sınıf indeksine (1 ve 2) ve gözden geçirme metnine karşılık gelen 2 sütun vardır. Gözden geçirme metinleri çift tırnak ("") kullanılarak ve herhangi bir dahili çift tırnaktan 2 çift tırnak ("") ile çıkılır. Yeni satırlardan önce bir ters eğik çizgi, ardından bir "n" karakteri gelir, yani " ".
Ana sayfa : https://course.fast.ai/datasets
Kaynak kodu :
tfds.text.YelpPolarityReviews
Sürümler :
-
0.2.0
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
158.67 MiB
Veri kümesi boyutu :
435.14 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 38.000 |
'train' | 560.000 |
- Özellik yapısı :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'text': Text(shape=(), dtype=tf.string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
etiket | sınıf etiketi | tf.int64 | ||
Metin | Metin | tf.string |
Denetlenen anahtarlar (bkz
as_supervised
doc ):('text', 'label')
Şekil ( tfds.show_examples ): Desteklenmez.
Örnekler ( tfds.as_dataframe ):
- alıntı :
@article{zhangCharacterlevelConvolutionalNetworks2015,
archivePrefix = {arXiv},
eprinttype = {arxiv},
eprint = {1509.01626},
primaryClass = {cs},
title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
journal = {arXiv:1509.01626 [cs]},
author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
month = sep,
year = {2015},
}