yelp_polarity_reviews

  • תיאור :

ערכת סקירת Yelp גדולה. זהו מערך נתונים לסיווג סנטימנט בינארי. אנו מספקים סט של 560,000 ביקורות ילפ קוטביות במיוחד לאימון, ו-38,000 לבדיקות. ORIGIN מערך הביקורות של Yelp מורכב מסקירות מ-Yelp. זה מופק מנתוני Yelp Dataset Challenge 2015. למידע נוסף, עיין בכתובת http://www.yelp.com/dataset

מערך הנתונים של סקירות הקוטביות של Yelp נבנה על ידי Xiang Zhang (xiang.zhang@nyu.edu) ממערך הנתונים שלמעלה. הוא משמש לראשונה כמבחן סיווג טקסט במאמר הבא: Xiang Zhang, Junbo Zhao, Yann LeCun. רשתות קונבולוציוניות ברמת הדמות לסיווג טקסט. התקדמות במערכות עיבוד מידע עצבי 28 (NIPS 2015).

תיאור

מערך הקוטביות של Yelp ביקורות נבנה על ידי התייחסות לכוכבים 1 ו-2 שליליים, ו-3 ו-4 חיוביים. עבור כל קוטביות נלקחות באופן אקראי 280,000 דגימות אימון ו-19,000 דגימות בדיקה. בסך הכל יש 560,000 דגימות אימון ו-38,000 דגימות בדיקה. קוטביות שלילית היא מחלקה 1 ומחלקה חיובית 2.

הקבצים train.csv ו-test.csv מכילים את כל דוגמאות ההדרכה כערכים מופרדים בפסיקים. יש בהם 2 עמודות, המתאימות לאינדקס הכיתה (1 ו-2) ולטקסט סקירה. טקסטי הביקורת עוברים בריחה באמצעות מרכאות כפולות ("), וכל מרכאות כפולות פנימיות נמלטות על ידי 2 מרכאות כפולות (""). שורות חדשות נמלטות באמצעות קו נטוי אחורי ואחריו תו "n", כלומר " ".

לְפַצֵל דוגמאות
'test' 38,000
'train' 560,000
  • מבנה תכונה :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תווית ClassLabel tf.int64
טֶקסט טֶקסט tf.string
  • ציטוט :
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}