- توضیحات :
مجموعه داده بررسی فیلم بزرگ. این یک مجموعه داده برای طبقه بندی احساسات باینری است که حاوی داده های بیشتری نسبت به مجموعه داده های معیار قبلی است. ما مجموعه ای از 25000 بررسی فیلم بسیار قطبی را برای آموزش ، و 25000 بررسی فیلم را برای آزمایش ارائه می دهیم. داده های غیر برچسب اضافی نیز برای استفاده وجود دارد.
صفحه اصلی : http://ai.stanford.edu/~amaas/data/sentiment/
کد منبع :
tfds.text.IMDBReviews
نسخه ها :
-
1.0.0
(پیش فرض): API جدید تقسیم شده ( https://tensorflow.org/datasets/splits )
-
اندازه
80.23 MiB
:80.23 MiB
اندازه مجموعه داده :
Unknown size
ذخیره خودکار ( مستندات ): ناشناخته است
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 25000 |
'train' | 25000 |
'unsupervised' | 50،000 |
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):('text', 'label')
نقل قول :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
- شکل ( tfds.show_examples ): پشتیبانی نمی شود.
imdb_reviews / plain_text (پیکربندی پیش فرض)
شرح پیکربندی : متن ساده
ویژگی ها :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'text': Text(shape=(), dtype=tf.string),
})
- مثالها ( tfds.as_dataframe ):
imdb_reviews / بایت
توضیحات پیکربندی : از کدگذاری متن در سطح بایت با
tfds.deprecated.text.ByteTextEncoder
ویژگی ها :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- مثالها ( tfds.as_dataframe ):
imdb_reviews / subwords8k
توضیحات پیکربندی : از
tfds.deprecated.text.SubwordTextEncoder
با اندازهtfds.deprecated.text.SubwordTextEncoder
8k استفاده می کندویژگی ها :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- مثالها ( tfds.as_dataframe ):
imdb_reviews / subwords32k
شرح پیکربندی : از
tfds.deprecated.text.SubwordTextEncoder
با اندازهtfds.deprecated.text.SubwordTextEncoder
32k استفاده می کندویژگی ها :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- مثالها ( tfds.as_dataframe ):