- คำอธิบาย :
ชุดข้อมูลบทวิจารณ์ภาพยนตร์ขนาดใหญ่ นี่คือชุดข้อมูลสำหรับการจัดประเภทความเชื่อมั่นแบบไบนารีที่มีข้อมูลมากกว่าชุดข้อมูลเปรียบเทียบก่อนหน้าอย่างมาก เราจัดเตรียมชุดบทวิจารณ์ภาพยนตร์ขั้วโลกเหนือ 25,000 เรื่องสำหรับการฝึกอบรม และ 25,000 รายการสำหรับการทดสอบ มีข้อมูลที่ไม่มีป้ายกำกับเพิ่มเติมสำหรับการใช้งานเช่นกัน
ซอร์สโค้ด :
tfds.text.IMDBReviews
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): API แยกใหม่ ( https://tensorflow.org/datasets/splits )
-
ขนาดดาวน์โหลด :
80.23 MiB
ขนาดชุดข้อมูล :
Unknown size
แคชอัตโนมัติ ( เอกสาร ): Unknown
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 25,000 |
'train' | 25,000 |
'unsupervised' | 50,000 |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('text', 'label')
รูป ( tfds.show_examples ): ไม่รองรับ
อ้างอิง :
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
author = {Maas, Andrew L. and Daly, Raymond E. and Pham, Peter T. and Huang, Dan and Ng, Andrew Y. and Potts, Christopher},
title = {Learning Word Vectors for Sentiment Analysis},
booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2011},
address = {Portland, Oregon, USA},
publisher = {Association for Computational Linguistics},
pages = {142--150},
url = {http://www.aclweb.org/anthology/P11-1015}
}
imdb_reviews/plain_text (การกำหนดค่าเริ่มต้น)
คำอธิบายการกำหนดค่า : ข้อความธรรมดา
คุณสมบัติ :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'text': Text(shape=(), dtype=tf.string),
})
- ตัวอย่าง ( tfds.as_dataframe ):
imdb_reviews/bytes
คำอธิบาย การกำหนดค่า : ใช้การเข้ารหัสข้อความระดับไบต์ด้วย
tfds.deprecated.text.ByteTextEncoder
คุณสมบัติ :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})
- ตัวอย่าง ( tfds.as_dataframe ):
imdb_reviews/subwords8k
คำอธิบาย การกำหนดค่า : ใช้
tfds.deprecated.text.SubwordTextEncoder
ที่มีขนาดคำศัพท์ 8kคุณสมบัติ :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})
- ตัวอย่าง ( tfds.as_dataframe ):
imdb_reviews/subwords32k
คำอธิบาย การกำหนดค่า : ใช้
tfds.deprecated.text.SubwordTextEncoder
ที่มีขนาดคำศัพท์ 32kคุณสมบัติ :
FeaturesDict({
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})
- ตัวอย่าง ( tfds.as_dataframe ):