¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

peliculas

  • Descripción:

Este conjunto de datos contiene un conjunto de clasificaciones de películas del sitio web MovieLens, un servicio de recomendación de películas. Se recogió este conjunto de datos y mantenido por GroupLens , un grupo de investigación de la Universidad de Minnesota. Hay 5 versiones incluidas: "25m", "latest-small", "100k", "1m", "20m". En todos los conjuntos de datos, los datos de las películas y los datos de clasificación se unen en "movieId". El conjunto de datos de 25 m, el conjunto de datos más reciente y pequeño y el conjunto de datos de 20 m contienen solo datos de películas y datos de clasificación. El conjunto de datos de 1 millón y el conjunto de datos de 100k contienen datos demográficos además de datos de películas y calificaciones.

  • "25m": esta es la última versión estable del conjunto de datos MovieLens. Se recomienda para fines de investigación.
  • "latest-small": este es un pequeño subconjunto de la última versión del conjunto de datos MovieLens. GroupLens lo cambia y actualiza con el tiempo.
  • "100k": esta es la versión más antigua de los conjuntos de datos de MovieLens. Es un pequeño conjunto de datos con datos demográficos.
  • "1m": este es el conjunto de datos de MovieLens más grande que contiene datos demográficos.
  • "20 m": este es uno de los conjuntos de datos MovieLens más utilizados en artículos académicos junto con el conjunto de datos de 1 millón.

Para cada versión, los usuarios pueden ver solo los datos de las películas agregando el sufijo "-movies" (p. Ej., "Películas de 25 m") o los datos de clasificación junto con los datos de las películas (y los datos de los usuarios en los conjuntos de datos de 1 my 100k) agregando el sufijo "-calificaciones" (por ejemplo, "calificaciones de 25m").

Las siguientes funciones se incluyen en todas las versiones con el sufijo "-calificaciones".

  • "movie_id": un identificador único de la película calificada
  • "movie_title": el título de la película calificada con el año de lanzamiento entre paréntesis
  • "movie_genres": una secuencia de géneros a los que pertenece la película calificada
  • "user_id": un identificador único del usuario que realizó la calificación
  • "user_rating": la puntuación de la calificación en una escala de cinco estrellas
  • "marca de tiempo": la marca de tiempo de las clasificaciones, representada en segundos desde la medianoche, hora universal coordinada (UTC) del 1 de enero de 1970

Las versiones "100k-ratings" y "1m-ratings" incluyen además las siguientes características demográficas.

  • "user_gender": género del usuario que realizó la calificación; un valor verdadero corresponde a masculino
  • "bucketized_user_age": los valores de edad agrupados en depósitos del usuario que realizó la calificación, los valores y los rangos correspondientes son:
    • 1: "Menores de 18"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "user_occupation_label": la ocupación del usuario que realizó la calificación representada por una etiqueta codificada en números enteros; Las etiquetas están preprocesadas para que sean coherentes en diferentes versiones.
  • "user_occupation_text": la ocupación del usuario que hizo la calificación en la cadena original; diferentes versiones pueden tener diferentes conjuntos de etiquetas de texto sin procesar
  • "user_zip_code": el código postal del usuario que realizó la calificación

Además, el conjunto de datos "100k-ratings" también tendría una función "raw_user_age", que es la edad exacta de los usuarios que hicieron la calificación.

Los conjuntos de datos con el sufijo "-movies" contienen solo las funciones "movie_id", "movie_title" y "movie_genres".

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens / 25m-ratings (configuración predeterminada)

  • Descripción config: Este conjunto de datos contiene 25,000,095 calificaciones entre 62,423 películas, creado por 162,541 usuarios entre enero 09, 1995 y 21 de noviembre
  • Este conjunto de datos es la última versión estable del conjunto de datos MovieLens, generado el 21 de noviembre de 2019.

Cada usuario ha calificado al menos 20 películas. Las calificaciones están en incrementos de media estrella. Este conjunto de datos no incluye datos demográficos.

  • Tamaño del paquete: 249.84 MiB

  • Tamaño de conjunto de datos: 3.89 GiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'train' 25.000.095
  • características:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movielens / 25m-películas

  • Descripción config: Este conjunto de datos contiene datos de 62,423 películas clasificadas en el conjunto de datos de 25 m.

  • Tamaño del paquete: 249.84 MiB

  • Conjunto de datos de tamaño: 5.71 MiB

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'train' 62,423
  • características:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens / latest-small-ratings

  • Descripción config: Este conjunto de datos contiene 100,836 calificaciones entre 9.742 películas, creadas por 610 usuarios entre el 29 de marzo de 1996 y 24 de septiembre de 2018. Este conjunto de datos se genera el 26 de septiembre de 2018 y es la de un subconjunto de la última versión completa del conjunto de datos MovieLens . Este conjunto de datos cambia y se actualiza con el tiempo.

Cada usuario ha calificado al menos 20 películas. Las calificaciones están en incrementos de media estrella. Este conjunto de datos no incluye datos demográficos.

  • Tamaño del paquete: 955.28 KiB

  • Conjunto de datos de tamaño: 15.82 MiB

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'train' 100,836
  • características:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movielens / latest-small-movies

  • Descripción config: Este conjunto de datos contiene datos de 9.742 películas clasificadas en el último pequeño conjunto de datos.

  • Tamaño del paquete: 955.28 KiB

  • Conjunto de datos de tamaño: 910.64 KiB

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'train' 9,742
  • características:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens / 100k-ratings

  • Descripción config: Este conjunto de datos contiene 100.000 calificaciones de 943 usuarios en 1.682 películas. Este conjunto de datos es la versión más antigua del conjunto de datos MovieLens.

Cada usuario ha calificado al menos 20 películas. Las calificaciones se expresan en incrementos de estrellas completas. Este conjunto de datos contiene datos demográficos de los usuarios además de datos sobre películas y clasificaciones.

  • Tamaño del paquete: 4.70 MiB

  • Conjunto de datos de tamaño: 32.41 MiB

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'train' 100.000
  • características:
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'raw_user_age': tf.float32,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

movielens / 100k-películas

  • Descripción config: Este conjunto de datos contiene datos de 1.682 películas clasificadas en el conjunto de datos 100k.

  • Tamaño del paquete: 4.70 MiB

  • Conjunto de datos de tamaño: 150.35 KiB

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'train' 1,682
  • características:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens / 1m-ratings

  • Descripción config: Este conjunto de datos contiene 1,000,209 calificaciones anónimas de aproximadamente 3.900 películas hechas por 6.040 usuarios MovieLens que se unieron en MovieLens
  • Este conjunto de datos es el conjunto de datos más grande que incluye datos demográficos.

Cada usuario ha calificado al menos 20 películas. Las calificaciones se expresan en incrementos de estrellas completas. En los datos demográficos, los valores de edad se dividen en rangos y el valor de edad más bajo para cada rango se usa en los datos en lugar de los valores reales.

  • Tamaño del paquete: 5.64 MiB

  • Conjunto de datos de tamaño: 308.42 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'train' 1,000,209
  • características:
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

movielens / 1m-movies

  • Descripción config: Este conjunto de datos contiene datos de aproximadamente 3.900 películas clasificadas en el conjunto de datos de 1 m.

  • Tamaño del paquete: 5.64 MiB

  • Conjunto de datos de tamaño: 351.12 KiB

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'train' 3,883
  • características:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens / 20m-ratings

  • Descripción config: Este conjunto de datos contiene 20,000,263 calificaciones entre 27.278 películas, creadas por 138,493 usuarios entre enero 09, 1995 y el 31 de marzo de 2015. Este conjunto de datos se generó el 17 de octubre 2016.

Cada usuario ha calificado al menos 20 películas. Las calificaciones están en incrementos de media estrella. Este conjunto de datos no contiene datos demográficos.

  • Tamaño del paquete: 189.50 MiB

  • Tamaño de conjunto de datos: 3.10 GiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'train' 20,000,263
  • características:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movielens / 20m-películas

  • Descripción config: Este conjunto de datos contiene datos de 27.278 películas clasificadas en el conjunto de datos 20m

  • Tamaño del paquete: 189.50 MiB

  • Conjunto de datos de tamaño: 2.55 MiB

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'train' 27,278
  • características:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})