yelp_polarity_reviews

توضیحات :

مجموعه داده بررسی Yelp بزرگ. این مجموعه داده ای برای طبقه بندی احساسات باینری است. ما مجموعه ای از 560000 بررسی yelp بسیار قطبی را برای آموزش و 38000 برای آزمایش ارائه می دهیم. ORIGIN مجموعه داده بررسی Yelp از بررسی های Yelp تشکیل شده است. از داده های Yelp Dataset Challenge 2015 استخراج شده است. برای اطلاعات بیشتر، لطفاً به http://www.yelp.com/dataset مراجعه کنید

مجموعه داده قطبی بررسی Yelp توسط Xiang Zhang (xiang.zhang@nyu.edu) از مجموعه داده فوق ساخته شده است. این اولین بار به عنوان معیار طبقه بندی متن در مقاله زیر استفاده می شود: Xiang Zhang، Junbo Zhao، Yann LeCun. شبکه های کانولوشن در سطح کاراکتر برای طبقه بندی متن. پیشرفت‌ها در سیستم‌های پردازش اطلاعات عصبی 28 (NIPS 2015).

شرح

مجموعه داده قطبی بررسی Yelp با در نظر گرفتن ستاره های 1 و 2 منفی و 3 و 4 مثبت ساخته شده است. برای هر قطبیت 280000 نمونه آموزشی و 19000 نمونه آزمایشی به صورت تصادفی انتخاب می شود. در مجموع 560000 نمونه آموزش و 38000 نمونه تست وجود دارد. قطبیت منفی کلاس 1 و مثبت کلاس 2 است.

فایل‌های train.csv و test.csv شامل تمام نمونه‌های آموزشی به‌عنوان مقادیری با کاما هستند. 2 ستون در آنها وجود دارد که مربوط به فهرست کلاس (1 و 2) و متن بررسی است. متون بازبینی با استفاده از گیومه های دوتایی (") و هر دو نقل قول داخلی با 2 نقل قول دوتایی ("") خارج می شوند. خطوط جدید با یک اسلش به دنبال کاراکتر "n"، یعنی " " خارج می شوند.

صفحه اصلی : https://course.fast.ai/datasets
کد منبع : tfds.text.YelpPolarityReviews
نسخه ها :
- 0.2.0 (پیش فرض): بدون یادداشت انتشار.
حجم دانلود : 158.67 MiB
حجم مجموعه داده : 435.14 MiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :

شکاف	مثال ها
`'test'`	38000
`'train'`	560000

ساختار ویژگی :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})

مستندات ویژگی :

ویژگی	کلاس	نوع D
	FeaturesDict
برچسب	ClassLabel	int64
متن	متن	رشته

کلیدهای نظارت شده (مشاهده as_supervised doc ): ('text', 'label')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}

yelp_polarity_reviews با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

yelp_polarity_reviews