- Açıklama :
Büyük Film İnceleme Veri Kümesi. Bu, önceki kıyaslama veri kümelerinden önemli ölçüde daha fazla veri içeren ikili duyarlılık sınıflandırması için bir veri kümesidir. Eğitim için 25.000 ve test için 25.000 yüksek düzeyde kutupsal film incelemesi sağlıyoruz. Ayrıca kullanım için etiketlenmemiş ek veriler de vardır.
Ana sayfa : http://ai.stanford.edu/~amaas/data/sentiment/
Kaynak kodu :
tfds.text.IMDBReviews
Sürümler :
-
1.0.0
(varsayılan): Yeni bölünmüş API ( https://tensorflow.org/datasets/splits )
-
İndirme boyutu :
80.23 MiB
Veri kümesi boyutu :
Unknown size
Otomatik önbelleğe alındı ( belgeler ): Bilinmiyor
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 25.000 |
'train' | 25.000 |
'unsupervised' | 50.000 |
Denetlenen anahtarlar (bkz
as_supervised
doc ):('text', 'label')
Şekil ( tfds.show_examples ): Desteklenmez.
Örnekler ( tfds.as_dataframe ): Eksik.
alıntı :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text (varsayılan yapılandırma)
Yapılandırma açıklaması : Düz metin
Özellik yapısı :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'text': Text(shape=(), dtype=tf.string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
etiket | sınıf etiketi | tf.int64 | ||
Metin | Metin | tf.string |
imdb_reviews/bayt
Yapılandırma açıklaması :
tfds.deprecated.text.ByteTextEncoder
ile bayt düzeyinde metin kodlamasını kullanırÖzellik yapısı :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
etiket | sınıf etiketi | tf.int64 | ||
Metin | Metin | (Hiçbiri,) | tf.int64 |
imdb_reviews/alt kelimeler8k
Yapılandırma açıklaması : 8k kelime boyutuyla
tfds.deprecated.text.SubwordTextEncoder
kullanırÖzellik yapısı :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
etiket | sınıf etiketi | tf.int64 | ||
Metin | Metin | (Hiçbiri,) | tf.int64 |
imdb_reviews/subwords32k
Yapılandırma açıklaması : 32k kelime boyutuyla
tfds.deprecated.text.SubwordTextEncoder
kullanırÖzellik yapısı :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
etiket | sınıf etiketi | tf.int64 | ||
Metin | Metin | (Hiçbiri,) | tf.int64 |