imdb_reviews

  • الوصف :

مجموعة بيانات مراجعة الأفلام الكبيرة. هذه مجموعة بيانات لتصنيف المشاعر الثنائية تحتوي على بيانات أكثر بكثير من مجموعات البيانات المعيارية السابقة. نحن نقدم مجموعة من 25000 مراجعة فيلم عالية القطبية للتدريب ، و 25000 للاختبار. هناك بيانات إضافية غير مصنفة للاستخدام أيضًا.

انشق، مزق أمثلة
'test' 25000
'train' 25000
'unsupervised' 50000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews / simple_text (التكوين الافتراضي)

  • وصف التكوين : نص عادي

  • حجم مجموعة البيانات : 129.83 MiB

  • هيكل الميزة :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
ضع الكلمة المناسبة ClassLabel int64
نص نص سلسلة

imdb_reviews / بايت

  • وصف التكوين : يستخدم ترميز النص على مستوى البايت مع tfds.deprecated.text.ByteTextEncoder

  • حجم مجموعة البيانات : 129.88 MiB

  • هيكل الميزة :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
ضع الكلمة المناسبة ClassLabel int64
نص نص (لا أحد،) int64

imdb_reviews / subwords8k

  • وصف التكوين : يستخدم tfds.deprecated.text.SubwordTextEncoder مع حجم 8k vocab

  • حجم مجموعة البيانات : 54.72 MiB

  • هيكل الميزة :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
ضع الكلمة المناسبة ClassLabel int64
نص نص (لا أحد،) int64

imdb_reviews / subwords32k

  • وصف التكوين : يستخدم tfds.deprecated.text.SubwordTextEncoder بحجم 32 كيلوبايت

  • حجم مجموعة البيانات : 50.33 MiB

  • هيكل الميزة :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
ضع الكلمة المناسبة ClassLabel int64
نص نص (لا أحد،) int64