¡TFDS ahora admite el formato Croissant 🥐 ! Lea la documentación para saber más.

Se usó la API de Cloud Translation para traducir esta página.

lente_de_pelicula

Descripción :

Este conjunto de datos contiene un conjunto de clasificaciones de películas del sitio web MovieLens, un servicio de recomendación de películas. Este conjunto de datos fue recopilado y mantenido por GroupLens , un grupo de investigación de la Universidad de Minnesota. Hay 5 versiones incluidas: "25m", "latest-small", "100k", "1m", "20m". En todos los conjuntos de datos, los datos de las películas y los datos de clasificación se unen en "movieId". El conjunto de datos de 25 m, el conjunto de datos más reciente y pequeño y el conjunto de datos de 20 m contienen solo datos de películas y datos de clasificación. El conjunto de datos de 1m y el conjunto de datos de 100k contienen datos demográficos además de datos de películas y calificaciones.

"25m": esta es la última versión estable del conjunto de datos de MovieLens. Se recomienda para fines de investigación.
"latest-small": este es un pequeño subconjunto de la última versión del conjunto de datos de MovieLens. GroupLens lo cambia y lo actualiza con el tiempo.
"100k": esta es la versión más antigua de los conjuntos de datos de MovieLens. Es un pequeño conjunto de datos con datos demográficos.
"1m": este es el conjunto de datos de MovieLens más grande que contiene datos demográficos.
"20m": este es uno de los conjuntos de datos de MovieLens más utilizados en documentos académicos junto con el conjunto de datos de 1m.

Para cada versión, los usuarios pueden ver solo los datos de las películas agregando el sufijo "-películas" (p. ej., "películas de 25 m") o los datos de clasificación combinados con los datos de las películas (y los datos de los usuarios en los conjuntos de datos de 1 m y 100 000) agregando el sufijo "-ratings" (por ejemplo, "25m-ratings").

Las siguientes características se incluyen en todas las versiones con el sufijo "-ratings".

"movie_id": un identificador único de la película calificada
"movie_title": el título de la película calificada con el año de estreno entre paréntesis
"movie_genres": una secuencia de géneros a los que pertenece la película calificada
"user_id": un identificador único del usuario que hizo la calificación
"user_rating": la puntuación de la calificación en una escala de cinco estrellas
"marca de tiempo": la marca de tiempo de las calificaciones, representada en segundos desde la medianoche del Tiempo Universal Coordinado (UTC) del 1 de enero de 1970

Las versiones "100k-ratings" y "1m-ratings" además incluyen las siguientes características demográficas.

"user_gender": género del usuario que hizo la calificación; un valor verdadero corresponde a masculino
"bucketized_user_age": valores de edad en cubos del usuario que hizo la calificación, los valores y los rangos correspondientes son:
- 1: "Menores de 18"
- 18: "18-24"
- 25: "25-34"
- 35: "35-44"
- 45: "45-49"
- 50: "50-55"
- 56: "56+"
"user_occupation_label": la ocupación del usuario que realizó la calificación representada por una etiqueta codificada en números enteros; las etiquetas se procesan previamente para que sean consistentes en diferentes versiones
"user_occupation_text": la ocupación del usuario que hizo la calificación en la cadena original; diferentes versiones pueden tener diferentes conjuntos de etiquetas de texto sin procesar
"user_zip_code": el código postal del usuario que hizo la calificación

Además, el conjunto de datos "100k-ratings" también tendría una función "raw_user_age", que es la edad exacta de los usuarios que hicieron la calificación.

Los conjuntos de datos con el sufijo "-movies" contienen solo las funciones "movie_id", "movie_title" y "movie_genres".

Página de inicio: https://grouplens.org/datasets/movielens/
Código fuente : tfds.structured.MovieLens
Versiones :
- 0.1.1 (predeterminado): Sin notas de la versión.
Claves supervisadas (Ver as_supervised doc ): None
Figura ( tfds.show_examples ): no compatible.
Cita :

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movie_lens/25m-ratings (configuración predeterminada)

Descripción de la configuración : este conjunto de datos contiene 25 000 095 calificaciones en 62 423 películas, creadas por 162 541 usuarios entre el 9 de enero de 1995 y el 21 de noviembre de
Este conjunto de datos es la última versión estable del conjunto de datos de MovieLens, generado el 21 de noviembre de 2019.

Cada usuario ha calificado al menos 20 películas. Las calificaciones están en incrementos de media estrella. Este conjunto de datos no incluye datos demográficos.

Tamaño de la descarga : 249.84 MiB
Tamaño del conjunto de datos : 3.89 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Separar	Ejemplos
`'train'`	25,000,095

Estructura de características :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
generos_de_peliculas	Secuencia (Etiqueta de clase)	(Ninguna,)	int64
movie_id	Tensor		cuerda
título de la película	Tensor		cuerda
marca de tiempo	Tensor		int64
id_usuario	Tensor		cuerda
Opiniones de los usuarios	Tensor		flotar32

Ejemplos ( tfds.as_dataframe ):

movie_lens/25m-movies

Descripción de la configuración : este conjunto de datos contiene datos de 62 423 películas calificadas en el conjunto de datos de 25 m.
Tamaño de la descarga : 249.84 MiB
Tamaño del conjunto de datos : 5.71 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'train'`	62,423

Estructura de características :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
generos_de_peliculas	Secuencia (Etiqueta de clase)	(Ninguna,)	int64
movie_id	Tensor		cuerda
título de la película	Tensor		cuerda

Ejemplos ( tfds.as_dataframe ):

movie_lens/últimas-pequeñas-calificaciones

Descripción de configuración : este conjunto de datos contiene 100 836 calificaciones en 9742 películas, creadas por 610 usuarios entre el 29 de marzo de 1996 y el 24 de septiembre de 2018. Este conjunto de datos se generó el 26 de septiembre de 2018 y es un subconjunto de la última versión completa del conjunto de datos de MovieLens . Este conjunto de datos se modifica y actualiza con el tiempo.

Cada usuario ha calificado al menos 20 películas. Las calificaciones están en incrementos de media estrella. Este conjunto de datos no incluye datos demográficos.

Tamaño de la descarga : 955.28 KiB
Tamaño del conjunto de datos : 15.82 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'train'`	100,836

Estructura de características :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
generos_de_peliculas	Secuencia (Etiqueta de clase)	(Ninguna,)	int64
movie_id	Tensor		cuerda
título de la película	Tensor		cuerda
marca de tiempo	Tensor		int64
id_usuario	Tensor		cuerda
Opiniones de los usuarios	Tensor		flotar32

Ejemplos ( tfds.as_dataframe ):

movie_lens/últimas-pequeñas-películas

Descripción de la configuración : este conjunto de datos contiene datos de 9742 películas clasificadas en el último conjunto de datos pequeño.
Tamaño de la descarga : 955.28 KiB
Tamaño del conjunto de datos : 910.64 KiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'train'`	9,742

Estructura de características :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
generos_de_peliculas	Secuencia (Etiqueta de clase)	(Ninguna,)	int64
movie_id	Tensor		cuerda
título de la película	Tensor		cuerda

Ejemplos ( tfds.as_dataframe ):

movie_lens/100k-calificaciones

Descripción de la configuración : este conjunto de datos contiene 100 000 calificaciones de 943 usuarios en 1682 películas. Este conjunto de datos es la versión más antigua del conjunto de datos de MovieLens.

Cada usuario ha calificado al menos 20 películas. Las calificaciones están en incrementos de estrellas enteras. Este conjunto de datos contiene datos demográficos de los usuarios además de datos sobre películas y calificaciones.

Tamaño de la descarga : 4.70 MiB
Tamaño del conjunto de datos : 32.41 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'train'`	100,000

Estructura de características :

FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
bucketized_user_age	Tensor		flotar32
generos_de_peliculas	Secuencia (Etiqueta de clase)	(Ninguna,)	int64
movie_id	Tensor		cuerda
título de la película	Tensor		cuerda
raw_user_age	Tensor		flotar32
marca de tiempo	Tensor		int64
género_usuario	Tensor		bool
id_usuario	Tensor		cuerda
etiqueta_ocupación_usuario	Etiqueta de clase		int64
texto_ocupacion_usuario	Tensor		cuerda
Opiniones de los usuarios	Tensor		flotar32
código_zip_usuario	Tensor		cuerda

Ejemplos ( tfds.as_dataframe ):

movie_lens/100k-películas

Descripción de la configuración : este conjunto de datos contiene datos de 1682 películas calificadas en el conjunto de datos de 100k.
Tamaño de la descarga : 4.70 MiB
Tamaño del conjunto de datos : 150.35 KiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'train'`	1,682

Estructura de características :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
generos_de_peliculas	Secuencia (Etiqueta de clase)	(Ninguna,)	int64
movie_id	Tensor		cuerda
título de la película	Tensor		cuerda

Ejemplos ( tfds.as_dataframe ):

movie_lens/1m-ratings

Descripción de configuración : este conjunto de datos contiene 1,000,209 calificaciones anónimas de aproximadamente 3,900 películas realizadas por 6,040 usuarios de MovieLens que se unieron a MovieLens en
Este conjunto de datos es el conjunto de datos más grande que incluye datos demográficos.

Cada usuario ha calificado al menos 20 películas. Las calificaciones están en incrementos de estrellas enteras. En los datos demográficos, los valores de edad se dividen en rangos y el valor de edad más bajo para cada rango se usa en los datos en lugar de los valores reales.

Tamaño de la descarga : 5.64 MiB
Tamaño del conjunto de datos : 308.42 MiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Separar	Ejemplos
`'train'`	1,000,209

Estructura de características :

FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
bucketized_user_age	Tensor		flotar32
generos_de_peliculas	Secuencia (Etiqueta de clase)	(Ninguna,)	int64
movie_id	Tensor		cuerda
título de la película	Tensor		cuerda
marca de tiempo	Tensor		int64
género_usuario	Tensor		bool
id_usuario	Tensor		cuerda
etiqueta_ocupación_usuario	Etiqueta de clase		int64
texto_ocupacion_usuario	Tensor		cuerda
Opiniones de los usuarios	Tensor		flotar32
código_zip_usuario	Tensor		cuerda

Ejemplos ( tfds.as_dataframe ):

movie_lens/1m-movies

Descripción de la configuración : este conjunto de datos contiene datos de aproximadamente 3900 películas clasificadas en el conjunto de datos de 1 m.
Tamaño de la descarga : 5.64 MiB
Tamaño del conjunto de datos : 351.12 KiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'train'`	3,883

Estructura de características :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
generos_de_peliculas	Secuencia (Etiqueta de clase)	(Ninguna,)	int64
movie_id	Tensor		cuerda
título de la película	Tensor		cuerda

Ejemplos ( tfds.as_dataframe ):

movie_lens/20m-ratings

Descripción de la configuración : este conjunto de datos contiene 20 000 263 calificaciones en 27 278 películas, creadas por 138 493 usuarios entre el 9 de enero de 1995 y el 31 de marzo de 2015. Este conjunto de datos se generó el 17 de octubre de 2016.

Cada usuario ha calificado al menos 20 películas. Las calificaciones están en incrementos de media estrella. Este conjunto de datos no contiene datos demográficos.

Tamaño de descarga : 189.50 MiB
Tamaño del conjunto de datos : 3.10 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Separar	Ejemplos
`'train'`	20,000,263

Estructura de características :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
generos_de_peliculas	Secuencia (Etiqueta de clase)	(Ninguna,)	int64
movie_id	Tensor		cuerda
título de la película	Tensor		cuerda
marca de tiempo	Tensor		int64
id_usuario	Tensor		cuerda
Opiniones de los usuarios	Tensor		flotar32

Ejemplos ( tfds.as_dataframe ):

movie_lens/20m-movies

Descripción de la configuración : este conjunto de datos contiene datos de 27 278 películas calificadas en el conjunto de datos de 20 m.
Tamaño de descarga : 189.50 MiB
Tamaño del conjunto de datos : 2.55 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'train'`	27,278

Estructura de características :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
generos_de_peliculas	Secuencia (Etiqueta de clase)	(Ninguna,)	int64
movie_id	Tensor		cuerda
título de la película	Tensor		cuerda

Ejemplos ( tfds.as_dataframe ):

lente_de_pelicula Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.