yelp_polarity_reviews

Açıklama :

Büyük Yelp İnceleme Veri Kümesi. Bu, ikili duyarlılık sınıflandırması için bir veri kümesidir. Eğitim için 560.000 yüksek kutuplu havlama incelemesi ve test için 38.000 set sağlıyoruz. ORIGIN Yelp inceleme veri seti, Yelp'ten gelen incelemelerden oluşur. Yelp Dataset Challenge 2015 verilerinden alınmıştır. Daha fazla bilgi için lütfen http://www.yelp.com/dataset adresine bakın.

Yelp incelemeleri polarite veri seti, Xiang Zhang (xiang.zhang@nyu.edu) tarafından yukarıdaki veri setinden oluşturulmuştur. İlk olarak şu makalede bir metin sınıflandırma ölçütü olarak kullanılmıştır: Xiang Zhang, Junbo Zhao, Yann LeCun. Metin Sınıflandırması için Karakter Düzeyinde Evrişimli Ağlar. Sinirsel Bilgi İşleme Sistemlerindeki Gelişmeler 28 (NIPS 2015).

TANIM

Yelp incelemeleri polarite veri seti, yıldız 1 ve 2'nin negatif ve 3 ve 4'ün pozitif olduğu düşünülerek oluşturulur. Her polarite için rastgele 280.000 eğitim örneği ve 19.000 test örneği alınır. Toplamda 560.000 eğitim örneği ve 38.000 test örneği vardır. Negatif polarite 1. sınıf ve pozitif 2. sınıftır.

Train.csv ve test.csv dosyaları, tüm eğitim örneklerini virgülle ayrılmış değerler olarak içerir. İçlerinde sınıf indeksine (1 ve 2) ve inceleme metnine karşılık gelen 2 sütun vardır. İnceleme metinlerinden çift tırnak işareti ("") kullanılarak kaçınılır ve herhangi bir dahili çift tırnak işaretinden 2 çift tırnak ("") çıkarılır. Yeni satırlar, bir ters eğik çizgi ve ardından bir "n" karakteri, yani " " ile atlanır.

Ana sayfa : https://course.fast.ai/datasets
Kaynak kodu : tfds.text.YelpPolarityReviews
sürümler :
- 0.2.0 (varsayılan): Sürüm notu yok.
İndirme boyutu : 158.67 MiB
Veri kümesi boyutu : 435.14 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Hayır
bölmeler :

Bölmek	örnekler
`'test'`	38.000
`'train'`	560.000

Özellik yapısı :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})

Özellik belgeleri :

Özellik	Sınıf	Dtipi
	ÖzelliklerDict
etiket	SınıfEtiketi	int64
Metin	Metin	sicim

Denetlenen anahtarlar (Bkz as_supervised doc ): ('text', 'label')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):

Alıntı :

@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}