Google I/O สำเร็จแล้ว! ติดตามเซสชัน TensorFlow ดูเซสชัน

imdb_reviews

  • คำอธิบาย :

ชุดข้อมูลบทวิจารณ์ภาพยนตร์ขนาดใหญ่ นี่คือชุดข้อมูลสำหรับการจัดประเภทความเชื่อมั่นแบบไบนารีที่มีข้อมูลมากกว่าชุดข้อมูลเปรียบเทียบก่อนหน้าอย่างมาก เราจัดเตรียมชุดบทวิจารณ์ภาพยนตร์ขั้วโลกเหนือ 25,000 เรื่องสำหรับการฝึกอบรม และ 25,000 รายการสำหรับการทดสอบ มีข้อมูลที่ไม่มีป้ายกำกับเพิ่มเติมสำหรับการใช้งานเช่นกัน

แยก ตัวอย่าง
'test' 25,000
'train' 25,000
'unsupervised' 50,000
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('text', 'label')

  • รูป ( tfds.show_examples ): ไม่รองรับ

  • อ้างอิง :

@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (การกำหนดค่าเริ่มต้น)

  • คำอธิบายการกำหนดค่า : ข้อความธรรมดา

  • คุณสมบัติ :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})

imdb_reviews/bytes

  • คำอธิบาย การกำหนดค่า : ใช้การเข้ารหัสข้อความระดับไบต์ด้วย tfds.deprecated.text.ByteTextEncoder

  • คุณสมบัติ :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})

imdb_reviews/subwords8k

  • คำอธิบาย การกำหนดค่า : ใช้ tfds.deprecated.text.SubwordTextEncoder ที่มีขนาดคำศัพท์ 8k

  • คุณสมบัติ :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})

imdb_reviews/subwords32k

  • คำอธิบาย การกำหนดค่า : ใช้ tfds.deprecated.text.SubwordTextEncoder ที่มีขนาดคำศัพท์ 32k

  • คุณสมบัติ :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})