yelp_polarity_reviews

  • Açıklama :

Büyük Yelp İnceleme Veri Kümesi. Bu, ikili duygu sınıflandırması için bir veri kümesidir. Eğitim için 560.000 ve test için 38.000'lik bir dizi son derece kutupsal havlama incelemesi sağlıyoruz. ORIGIN Yelp incelemeleri veri seti, Yelp'ten gelen incelemelerden oluşur. Yelp Dataset Challenge 2015 verilerinden alınmıştır. Daha fazla bilgi için lütfen http://www.yelp.com/dataset adresine bakın.

Yelp incelemeleri polarite veri seti, yukarıdaki veri setinden Xiang Zhang (xiang.zhang@nyu.edu) tarafından oluşturulmuştur. İlk olarak aşağıdaki makalede bir metin sınıflandırma kıyaslaması olarak kullanılmıştır: Xiang Zhang, Junbo Zhao, Yann LeCun. Metin Sınıflandırması için Karakter Düzeyinde Evrişimli Ağlar. Sinirsel Bilgi İşleme Sistemlerindeki Gelişmeler 28 (NIPS 2015).

TANIM

Yelp incelemeleri polarite veri seti, yıldız 1 ve 2 negatif ve 3 ve 4 pozitif dikkate alınarak oluşturulmuştur. Her bir polarite için 280.000 eğitim numunesi ve 19.000 test numunesi rastgele alınır. Toplamda 560.000 eğitim numunesi ve 38.000 test numunesi bulunmaktadır. Negatif polarite sınıf 1 ve pozitif sınıf 2'dir.

Train.csv ve test.csv dosyaları, tüm eğitim örneklerini virgülle ayrılmış değerler olarak içerir. İçlerinde sınıf indeksine (1 ve 2) ve gözden geçirme metnine karşılık gelen 2 sütun vardır. Gözden geçirme metinleri çift tırnak ("") kullanılarak ve herhangi bir dahili çift tırnaktan 2 çift tırnak ("") ile çıkılır. Yeni satırlardan önce bir ters eğik çizgi, ardından bir "n" karakteri gelir, yani " ".

Bölmek Örnekler
'test' 38.000
'train' 560.000
  • Özellik yapısı :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
etiket sınıf etiketi tf.int64
Metin Metin tf.string
  • alıntı :
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}