imdb_reviews

  • توضیحات :

مجموعه داده بررسی فیلم بزرگ. این مجموعه داده ای برای طبقه بندی احساسات باینری است که حاوی داده های قابل ملاحظه ای بیشتر از مجموعه داده های معیار قبلی است. ما مجموعه ای از 25000 نقد فیلم بسیار قطبی را برای آموزش و 25000 برای آزمایش ارائه می دهیم. داده های بدون برچسب اضافی نیز برای استفاده وجود دارد.

شکاف مثال ها
'test' 25000
'train' 25000
'unsupervised' 50000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (پیکربندی پیش‌فرض)

  • توضیحات پیکربندی : متن ساده

  • حجم مجموعه داده : 129.83 MiB

  • ساختار ویژگی :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
برچسب ClassLabel int64
متن متن رشته

imdb_reviews/bytes

  • توضیحات پیکربندی : از کدگذاری متن در سطح بایت با tfds.deprecated.text.ByteTextEncoder استفاده می کند

  • حجم مجموعه داده : 129.88 MiB

  • ساختار ویژگی :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
برچسب ClassLabel int64
متن متن (هیچ یک،) int64

imdb_reviews/subwords8k

  • توضیحات پیکربندی : از tfds.deprecated.text.SubwordTextEncoder با اندازه vocab 8k استفاده می کند

  • حجم مجموعه داده : 54.72 MiB

  • ساختار ویژگی :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
برچسب ClassLabel int64
متن متن (هیچ یک،) int64

imdb_reviews/subwords32k

  • توضیحات پیکربندی : از tfds.deprecated.text.SubwordTextEncoder با اندازه vocab 32k استفاده می کند

  • حجم مجموعه داده : 50.33 MiB

  • ساختار ویژگی :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
برچسب ClassLabel int64
متن متن (هیچ یک،) int64