yelp_polarity_reviews

  • توضیحات :

مجموعه داده بررسی Yelp بزرگ. این مجموعه داده ای برای طبقه بندی احساسات باینری است. ما مجموعه ای از 560000 بررسی yelp بسیار قطبی را برای آموزش و 38000 برای آزمایش ارائه می دهیم. ORIGIN مجموعه داده بررسی Yelp از بررسی های Yelp تشکیل شده است. از داده های Yelp Dataset Challenge 2015 استخراج شده است. برای اطلاعات بیشتر، لطفاً به http://www.yelp.com/dataset مراجعه کنید

مجموعه داده قطبی بررسی Yelp توسط Xiang Zhang (xiang.zhang@nyu.edu) از مجموعه داده فوق ساخته شده است. این اولین بار به عنوان معیار طبقه بندی متن در مقاله زیر استفاده می شود: Xiang Zhang، Junbo Zhao، Yann LeCun. شبکه های کانولوشن در سطح کاراکتر برای طبقه بندی متن. پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی 28 (NIPS 2015).

شرح

مجموعه داده قطبی بررسی Yelp با در نظر گرفتن ستاره های 1 و 2 منفی و 3 و 4 مثبت ساخته شده است. برای هر قطبیت 280000 نمونه آموزشی و 19000 نمونه آزمایشی به صورت تصادفی انتخاب می شود. در مجموع 560000 نمونه آموزش و 38000 نمونه تست وجود دارد. قطبیت منفی کلاس 1 و مثبت کلاس 2 است.

فایل‌های train.csv و test.csv شامل تمام نمونه‌های آموزشی به‌عنوان مقادیری با کاما هستند. 2 ستون در آنها وجود دارد که مربوط به فهرست کلاس (1 و 2) و متن بررسی است. متون بازبینی با استفاده از گیومه های دوتایی (") و هر دو نقل قول داخلی با 2 نقل قول دوتایی ("") خارج می شوند. خطوط جدید با یک اسلش به دنبال کاراکتر "n"، یعنی " " خارج می شوند.

شکاف مثال ها
'test' 38000
'train' 560000
  • ساختار ویژگی :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
برچسب ClassLabel int64
متن متن رشته
  • نقل قول :
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}