imdb_revisiones

Descripción :

Gran conjunto de datos de revisión de películas. Este es un conjunto de datos para la clasificación de sentimientos binarios que contiene sustancialmente más datos que los conjuntos de datos de referencia anteriores. Proporcionamos un conjunto de 25 000 reseñas de películas altamente polarizadas para capacitación y 25 000 para pruebas. También hay datos adicionales sin etiquetar para su uso.

Documentación adicional : Explore en Papers With Code
Página de inicio : http://ai.stanford.edu/~amaas/data/sentiment/
Código fuente : tfds.datasets.imdb_reviews.Builder
Versiones :
- 1.0.0 (predeterminado): nueva API dividida ( https://tensorflow.org/datasets/splits )
Tamaño de la descarga : 80.23 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'test'`	25,000
`'train'`	25,000
`'unsupervised'`	50,000

Claves supervisadas (Ver como_documento as_supervised ): ('text', 'label')
Figura ( tfds.show_examples ): no compatible.
Cita :

@InProceedings{maas-EtAl:2011:ACL-HLT2011,
  author    = {Maas, Andrew L.  and  Daly, Raymond E.  and  Pham, Peter T.  and  Huang, Dan  and  Ng, Andrew Y.  and  Potts, Christopher},
  title     = {Learning Word Vectors for Sentiment Analysis},
  booktitle = {Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2011},
  address   = {Portland, Oregon, USA},
  publisher = {Association for Computational Linguistics},
  pages     = {142--150},
  url       = {http://www.aclweb.org/anthology/P11-1015}
}

imdb_reviews/plain_text (configuración predeterminada)

Descripción de la configuración : texto sin formato
Tamaño del conjunto de datos : 129.83 MiB
Estructura de características :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
etiqueta	Etiqueta de clase	int64
texto	Texto	cuerda

Ejemplos ( tfds.as_dataframe ):

imdb_revisiones/bytes

Descripción de la configuración : utiliza codificación de texto a nivel de byte con tfds.deprecated.text.ByteTextEncoder
Tamaño del conjunto de datos : 129.88 MiB
Estructura de características :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<ByteTextEncoder vocab_size=257>),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
etiqueta	Etiqueta de clase		int64
texto	Texto	(Ninguna,)	int64

Ejemplos ( tfds.as_dataframe ):

imdb_reviews/subpalabras8k

Descripción de la configuración : utiliza tfds.deprecated.text.SubwordTextEncoder con un tamaño de vocabulario de 8k
Tamaño del conjunto de datos : 54.72 MiB
Estructura de características :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=8185>),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
etiqueta	Etiqueta de clase		int64
texto	Texto	(Ninguna,)	int64

Ejemplos ( tfds.as_dataframe ):

imdb_reviews/subpalabras32k

Descripción de la configuración : utiliza tfds.deprecated.text.SubwordTextEncoder con un tamaño de vocabulario de 32k
Tamaño del conjunto de datos : 50.33 MiB
Estructura de características :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(None,), dtype=int64, encoder=<SubwordTextEncoder vocab_size=32650>),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
etiqueta	Etiqueta de clase		int64
texto	Texto	(Ninguna,)	int64

Ejemplos ( tfds.as_dataframe ):