Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

yelp_polarityratislava

  • Deskripsi :

Set Data Ulasan Yelp Besar. Ini adalah kumpulan data untuk klasifikasi sentimen biner. Kami menyediakan 560.000 ulasan yelp yang sangat polar untuk pelatihan, dan 38.000 untuk pengujian. ORIGIN Dataset ulasan Yelp terdiri dari ulasan dari Yelp. Ini diekstrak dari data Yelp Dataset Challenge 2015. Untuk informasi lebih lanjut, silakan merujuk ke http://www.yelp.com/dataset

Dataset polaritas ulasan Yelp dibuat oleh Xiang Zhang (xiang.zhang@nyu.edu) dari set data di atas. Ini pertama kali digunakan sebagai patokan klasifikasi teks di makalah berikut: Xiang Zhang, Junbo Zhao, Yann LeCun. Jaringan Konvolusional Tingkat Karakter untuk Klasifikasi Teks. Kemajuan dalam Sistem Pemrosesan Informasi Neural 28 (NIPS 2015).

DESKRIPSI

Dataset polaritas ulasan Yelp dibangun dengan mempertimbangkan bintang 1 dan 2 negatif, dan 3 dan 4 positif. Untuk setiap polaritas, 280.000 sampel pelatihan dan 19.000 sampel pengujian diambil secara acak. Total ada 560.000 sampel trainig dan 38.000 sampel pengujian. Polaritas negatif adalah kelas 1, dan kelas positif 2.

File train.csv dan test.csv berisi semua sampel pelatihan sebagai nilai yang dipisahkan dengan koma. Ada 2 kolom di dalamnya, sesuai dengan indeks kelas (1 dan 2) dan teks ulasan. Teks tinjauan diloloskan menggunakan tanda kutip ganda ("), dan setiap tanda kutip ganda internal di-escape dengan 2 tanda kutip ganda (" "). Baris baru diloloskan oleh garis miring terbalik diikuti dengan karakter" n ", yaitu" ".

Membagi Contoh
'test' 38.000
'train' 560,000
  • Fitur :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}