yelp_polarity_reviews

  • विवरण :

लार्ज येल्प रिव्यू डेटासेट। यह बाइनरी सेंटीमेंट वर्गीकरण के लिए एक डेटासेट है। हम प्रशिक्षण के लिए 560,000 अत्यधिक ध्रुवीय येल्प समीक्षाओं का एक सेट और परीक्षण के लिए 38,000 प्रदान करते हैं। ORIGIN Yelp समीक्षा डेटासेट में Yelp की समीक्षाएं शामिल हैं। इसे येल्प डेटासेट चैलेंज 2015 डेटा से निकाला गया है। अधिक जानकारी के लिए, कृपया http://www.yelp.com/dataset देखें

येल्प समीक्षा पोलरिटी डेटासेट का निर्माण जियांग झांग (xiang.zhang@nyu.edu) द्वारा उपरोक्त डेटासेट से किया गया है। यह पहली बार निम्नलिखित पेपर में एक पाठ वर्गीकरण बेंचमार्क के रूप में उपयोग किया गया है: जियांग झांग, जुनबो झाओ, यान लेकन। टेक्स्ट क्लासिफिकेशन के लिए कैरेक्टर-लेवल कनवॉल्यूशनल नेटवर्क। तंत्रिका सूचना प्रसंस्करण प्रणालियों में अग्रिम 28 (एनआईपीएस 2015)।

विवरण

Yelp समीक्षा करता है कि ध्रुवता डेटासेट 1 और 2 नकारात्मक, और 3 और 4 सकारात्मक सितारों पर विचार करके बनाया गया है। प्रत्येक ध्रुवता के लिए 280,000 प्रशिक्षण नमूने और 19,000 परीक्षण नमूने यादृच्छिक रूप से लिए जाते हैं। कुल मिलाकर 560,000 प्रशिक्षण नमूने और 38,000 परीक्षण नमूने हैं। ऋणात्मक ध्रुवता वर्ग 1 है, और धनात्मक वर्ग 2 है।

फ़ाइलें train.csv और test.csv में अल्पविराम से अलग किए गए मानों के रूप में सभी प्रशिक्षण नमूने शामिल हैं। उनमें 2 कॉलम हैं, जो क्लास इंडेक्स (1 और 2) और समीक्षा टेक्स्ट के अनुरूप हैं। समीक्षा पाठ दोहरे उद्धरण चिह्नों (") का उपयोग करके बच जाते हैं, और किसी भी आंतरिक दोहरे उद्धरण को 2 दोहरे उद्धरण चिह्नों ("") द्वारा छोड़ दिया जाता है। नई पंक्तियों को बैकस्लैश द्वारा "n" वर्ण के साथ छोड़ दिया जाता है, जो कि " " है।

विभाजित करना उदाहरण
'test' 38,000
'train' 560,000
  • फ़ीचर संरचना :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
लेबल क्लासलेबल int64
मूलपाठ मूलपाठ डोरी
  • उद्धरण :
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}