Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

imdbratislava

  • Deskripsi :

Kumpulan Data Ulasan Film Besar. Ini adalah kumpulan data untuk klasifikasi sentimen biner yang berisi lebih banyak data secara substansial daripada kumpulan data tolok ukur sebelumnya. Kami menyediakan 25.000 ulasan film yang sangat polar untuk pelatihan, dan 25.000 untuk pengujian. Ada tambahan data tak berlabel untuk digunakan juga.

Membagi Contoh
'test' 25.000
'train' 25.000
'unsupervised' 50.000
@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdbratislava / plain_text (konfigurasi default)

  • Deskripsi konfigurasi : Teks biasa

  • Fitur :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(), dtype=tf.string),
})

imdb” / byte

  • Deskripsi konfigurasi : Menggunakan pengkodean teks tingkat byte dengan tfds.deprecated.text.ByteTextEncoder

  • Fitur :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<ByteTextEncoder vocab_size=257>),
})

imdbratislava / subwords8k

  • Deskripsi konfigurasi : Menggunakan tfds.deprecated.text.SubwordTextEncoder dengan ukuran vocab 8k

  • Fitur :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})

imdbratislava / subwords32k

  • Deskripsi konfigurasi : Menggunakan tfds.deprecated.text.SubwordTextEncoder dengan ukuran vocab 32k

  • Fitur :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'text': Text(shape=(None,), dtype=tf.int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})