imdb_reviews

คำอธิบาย :

ชุดข้อมูลรีวิวภาพยนตร์ขนาดใหญ่ ชุดข้อมูลนี้เป็นชุดข้อมูลสำหรับการจำแนกประเภทความรู้สึกแบบไบนารีที่มีข้อมูลมากกว่าชุดข้อมูลมาตรฐานก่อนหน้าอย่างมาก เรามีชุดบทวิจารณ์ภาพยนตร์ที่มีขั้วสูง 25,000 บทสำหรับการฝึกอบรม และ 25,000 บทสำหรับการทดสอบ มีข้อมูลที่ไม่มีป้ายกำกับเพิ่มเติมสำหรับการใช้งานเช่นกัน

เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : http://ai.stanford.edu/~amaas/data/sentiment/
รหัสที่มา : tfds.datasets.imdb_reviews.Builder
รุ่น :
- 1.0.0 (ค่าเริ่มต้น): API แยกใหม่ ( https://tensorflow.org/datasets/splits )
ขนาดการดาวน์โหลด : 80.23 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
แยก :

แยก	ตัวอย่าง
`'test'`	25,000
`'train'`	25,000
`'unsupervised'`	50,000

คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('text', 'label')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :

@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (ค่าเริ่มต้น)

คำอธิบายการกำหนดค่า : ข้อความล้วน
ขนาดชุดข้อมูล : 129.83 MiB
โครงสร้างคุณลักษณะ :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	Dประเภท
	คุณสมบัติDict
ฉลาก	ป้ายกำกับคลาส	int64
ข้อความ	ข้อความ	สตริง

ตัวอย่าง ( tfds.as_dataframe ):

imdb_reviews/ไบต์

คำอธิบายการกำหนดค่า : ใช้การเข้ารหัสข้อความระดับไบต์ด้วย tfds.deprecated.text.ByteTextEncoder
ขนาดชุดข้อมูล : 129.88 MiB
โครงสร้างคุณลักษณะ :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	รูปร่าง	Dประเภท
	คุณสมบัติDict
ฉลาก	ป้ายกำกับคลาส		int64
ข้อความ	ข้อความ	(ไม่มี,)	int64

ตัวอย่าง ( tfds.as_dataframe ):

imdb_reviews/subwords8k

คำอธิบายการกำหนดค่า : ใช้ tfds.deprecated.text.SubwordTextEncoder ที่มีขนาดคำศัพท์ 8k
ขนาดชุดข้อมูล : 54.72 MiB
โครงสร้างคุณลักษณะ :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	รูปร่าง	Dประเภท
	คุณสมบัติDict
ฉลาก	ป้ายกำกับคลาส		int64
ข้อความ	ข้อความ	(ไม่มี,)	int64

ตัวอย่าง ( tfds.as_dataframe ):

imdb_reviews/subwords32k

คำอธิบายการกำหนดค่า : ใช้ tfds.deprecated.text.SubwordTextEncoder ที่มีขนาดคำศัพท์ 32k
ขนาดชุดข้อมูล : 50.33 MiB
โครงสร้างคุณลักษณะ :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	รูปร่าง	Dประเภท
	คุณสมบัติDict
ฉลาก	ป้ายกำกับคลาส		int64
ข้อความ	ข้อความ	(ไม่มี,)	int64

ตัวอย่าง ( tfds.as_dataframe ):