एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

imdb_reviews

  • विवरण:

बड़ी मूवी समीक्षा डेटासेट। यह द्विआधारी भावना वर्गीकरण के लिए एक डेटासेट है जिसमें पिछले बेंचमार्क डेटासेट की तुलना में काफी अधिक डेटा होता है। हम प्रशिक्षण के लिए 25,000 और परीक्षण के लिए 25,000 अत्यधिक ध्रुवीय मूवी समीक्षाओं का एक सेट प्रदान करते हैं। उपयोग के लिए अतिरिक्त लेबल रहित डेटा भी है।

विभाजित करना उदाहरण
'test' 25,000
'train' 25,000
'unsupervised' 50,000
  • पर्यवेक्षित कुंजियों (देखें as_supervised डॉक ): ('text', 'label')

  • चित्रा ( tfds.show_examples ): समर्थित नहीं।

  • प्रशस्ति पत्र:

@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (डिफ़ॉल्ट कॉन्फ़िग)

  • कॉन्फ़िग विवरण: सादा पाठ

  • विशेषताएं:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})

imdb_reviews/बाइट्स

  • कॉन्फ़िग विवरण: के साथ उपयोग बाइट स्तर के पाठ एन्कोडिंग tfds.deprecated.text.ByteTextEncoder

  • विशेषताएं:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})

imdb_reviews/subwords8k

  • कॉन्फ़िग विवरण: का उपयोग करता है tfds.deprecated.text.SubwordTextEncoder 8k vocab आकार के साथ

  • विशेषताएं:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})

imdb_reviews/subwords32k

  • कॉन्फ़िग विवरण: का उपयोग करता है tfds.deprecated.text.SubwordTextEncoder 32k vocab आकार के साथ

  • विशेषताएं:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})