لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

imdb_reviews

  • الوصف :

مجموعة بيانات مراجعة الأفلام الكبيرة. هذه مجموعة بيانات لتصنيف المشاعر الثنائية تحتوي على بيانات أكثر بكثير من مجموعات البيانات المعيارية السابقة. نحن نقدم مجموعة من 25000 مراجعة فيلم عالية القطبية للتدريب ، و 25000 للاختبار. هناك بيانات إضافية غير مصنفة للاستخدام أيضًا.

انشق، مزق أمثلة
'test' 25000
'train' 25000
'unsupervised' 50000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews / simple_text (التكوين الافتراضي)

  • وصف التكوين : نص عادي

  • الميزات :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})

imdb_reviews / بايت

  • وصف التكوين : يستخدم ترميز النص على مستوى البايت مع tfds.deprecated.text.ByteTextEncoder

  • الميزات :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})

imdb_reviews / subwords8k

  • وصف التكوين : يستخدم tfds.deprecated.text.SubwordTextEncoder مع حجم 8k vocab

  • الميزات :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})

imdb_reviews / subwords32k

  • وصف التكوين : يستخدم tfds.deprecated.text.SubwordTextEncoder بحجم 32 tfds.deprecated.text.SubwordTextEncoder

  • الميزات :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})