مساعدة في حماية الحاجز المرجاني العظيم مع TensorFlow على Kaggle تاريخ التحدي

imdb_reviews

  • الوصف:

مجموعة بيانات مراجعة الأفلام الكبيرة. هذه مجموعة بيانات لتصنيف المشاعر الثنائية تحتوي على بيانات أكثر بكثير من مجموعات البيانات المعيارية السابقة. نحن نقدم مجموعة من 25000 مراجعة للأفلام عالية القطبية للتدريب و 25000 للاختبار. هناك بيانات إضافية غير مصنفة للاستخدام أيضًا.

انشق، مزق أمثلة
'test' 25000
'train' 25000
'unsupervised' 50000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews / simple_text (التكوين الافتراضي)

  • التكوين وصف: نص عادي

  • الميزات:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})

imdb_reviews / بايت

  • ترميز النص استخدامات على مستوى البايت مع: وصف التكوين tfds.deprecated.text.ByteTextEncoder

  • الميزات:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})

imdb_reviews / subwords8k

  • التكوين وصف: يستخدم tfds.deprecated.text.SubwordTextEncoder مع 8K حجم فوكب

  • الميزات:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})

imdb_reviews / subwords32k

  • التكوين وصف: يستخدم tfds.deprecated.text.SubwordTextEncoder مع 32K حجم فوكب

  • الميزات:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})