एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

yelp_polarity_reviews

  • विवरण:

लार्ज येल्प रिव्यू डेटासेट। यह बाइनरी सेंटीमेंट वर्गीकरण के लिए एक डेटासेट है। हम प्रशिक्षण के लिए ५६०,००० अत्यधिक ध्रुवीय येल्प समीक्षाओं का एक सेट प्रदान करते हैं, और परीक्षण के लिए ३८,०००। उत्पत्ति येल्प समीक्षा डेटासेट में येल्प की समीक्षाएं शामिल हैं। इसे येल्प डेटासेट चैलेंज 2015 डेटा से निकाला गया है। अधिक जानकारी के लिए देखें http://www.yelp.com/dataset

येल्प समीक्षा ध्रुवीयता डेटासेट का निर्माण जियांग झांग (xiang.zhang@nyu.edu) द्वारा उपरोक्त डेटासेट से किया गया है। इसे पहली बार निम्नलिखित पेपर में टेक्स्ट वर्गीकरण बेंचमार्क के रूप में उपयोग किया जाता है: जियांग झांग, जुन्बो झाओ, यान लेकुन। टेक्स्ट वर्गीकरण के लिए कैरेक्टर-लेवल कन्वेन्शनल नेटवर्क्स। तंत्रिका सूचना प्रसंस्करण प्रणाली 28 में अग्रिम (एनआईपीएस 2015)।

विवरण

येल्प समीक्षा ध्रुवीयता डेटासेट का निर्माण सितारों 1 और 2 नकारात्मक, और 3 और 4 सकारात्मक पर विचार करके किया जाता है। प्रत्येक ध्रुवीयता के लिए 280,000 प्रशिक्षण नमूने और 19,000 परीक्षण नमूने यादृच्छिक रूप से लिए जाते हैं। कुल मिलाकर 560,000 प्रशिक्षण नमूने और 38,000 परीक्षण नमूने हैं। ऋणात्मक ध्रुवता कक्षा 1 और धनात्मक वर्ग 2 है।

फ़ाइलें train.csv और test.csv में सभी प्रशिक्षण नमूने अल्पविराम से अलग किए गए मानों के रूप में होते हैं। उनमें 2 कॉलम हैं, जो क्लास इंडेक्स (1 और 2) और रिव्यू टेक्स्ट के अनुरूप हैं। समीक्षा पाठ दोहरे उद्धरण चिह्नों (") से बच गए हैं, और कोई भी आंतरिक दोहरे उद्धरण 2 दोहरे उद्धरणों ("") से बच गए हैं। नई पंक्तियाँ एक बैकस्लैश से बच जाती हैं जिसके बाद "n" वर्ण होता है, जो कि " " होता है।

विभाजित करना उदाहरण
'test' 38,000
'train' 560,000
  • विशेषताएं:
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@article{zhangCharacterlevelConvolutionalNetworks2015,
  archivePrefix = {arXiv},
  eprinttype = {arxiv},
  eprint = {1509.01626},
  primaryClass = {cs},
  title = {Character-Level { {Convolutional Networks} } for { {Text Classification} } },
  abstract = {This article offers an empirical exploration on the use of character-level convolutional networks (ConvNets) for text classification. We constructed several large-scale datasets to show that character-level convolutional networks could achieve state-of-the-art or competitive results. Comparisons are offered against traditional models such as bag of words, n-grams and their TFIDF variants, and deep learning models such as word-based ConvNets and recurrent neural networks.},
  journal = {arXiv:1509.01626 [cs]},
  author = {Zhang, Xiang and Zhao, Junbo and LeCun, Yann},
  month = sep,
  year = {2015},
}