objectif de cinéma

  • Description:

Cet ensemble de données contient un ensemble de classements de films du site Web MovieLens, un service de recommandation de films. Cet ensemble de données a été recueilli et maintenu par GroupLens , un groupe de recherche à l'Université du Minnesota. Il existe 5 versions incluses : "25m", "dernière-petite", "100k", "1m", "20m". Dans tous les ensembles de données, les données de films et les données de classement sont jointes sur "movieId". L'ensemble de données de 25 m, le dernier petit ensemble de données et l'ensemble de données de 20 m contiennent uniquement des données de film et des données de classement. L'ensemble de données 1m et l'ensemble de données 100k contiennent des données démographiques en plus des données de film et de classement.

  • "25m" : il s'agit de la dernière version stable de l'ensemble de données MovieLens. Il est recommandé à des fins de recherche.
  • "latest-small" : il s'agit d'un petit sous-ensemble de la dernière version de l'ensemble de données MovieLens. Il est modifié et mis à jour au fil du temps par GroupLens.
  • « 100k » : il s'agit de la version la plus ancienne des ensembles de données MovieLens. Il s'agit d'un petit ensemble de données avec des données démographiques.
  • "1m" : il s'agit du plus grand ensemble de données MovieLens contenant des données démographiques.
  • "20m": Il s'agit de l'un des ensembles de données MovieLens les plus utilisés dans les articles universitaires avec l'ensemble de données 1m.

Pour chaque version, les utilisateurs peuvent afficher uniquement les données des films en ajoutant le suffixe "-movies" (par exemple "25m-movies") ou les données de classement jointes aux données des films (et les données des utilisateurs dans les ensembles de données 1m et 100k) en ajoutant le suffixe "-ratings" (par exemple "25m-ratings").

Les fonctionnalités ci-dessous sont incluses dans toutes les versions avec le suffixe "-ratings".

  • "movie_id" : un identifiant unique du film classé
  • "movie_title" : le titre du film classé avec l'année de sortie entre parenthèses
  • "movie_genres" : une séquence de genres à laquelle appartient le film classé
  • "user_id" : un identifiant unique de l'utilisateur qui a fait l'évaluation
  • "user_rating" : le score de la note sur une échelle de cinq étoiles
  • "timestamp" : l'horodatage des notes, représenté en secondes depuis minuit Temps Universel Coordonné (UTC) du 1er janvier 1970

Les versions "100k-ratings" et "1m-ratings" incluent en plus les caractéristiques démographiques suivantes.

  • "user_gender" : le sexe de l'utilisateur qui a évalué ; une vraie valeur correspond au masculin
  • "bucketized_user_age" : valeurs d'âge compartimentées de l'utilisateur qui a effectué la notation, les valeurs et les plages correspondantes sont :
    • 1 : "Moins de 18 ans"
    • 18 : « 18-24 »
    • 25 : « 25-34 »
    • 35 : « 35-44 »
    • 45 : "45-49"
    • 50 : « 50-55 »
    • 56 : « 56+ »
  • "user_occupation_label" : la profession de l'utilisateur qui a fait la note représentée par une étiquette codée en nombre entier ; les étiquettes sont prétraitées pour être cohérentes entre les différentes versions
  • "user_occupation_text" : la profession de l'utilisateur qui a fait l'évaluation dans la chaîne d'origine ; différentes versions peuvent avoir différents ensembles d'étiquettes de texte brut
  • "user_zip_code" : le code postal de l'utilisateur qui a évalué

De plus, l'ensemble de données "100k-ratings" aurait également une fonctionnalité "raw_user_age" qui correspond à l'âge exact des utilisateurs qui ont évalué

Les ensembles de données avec le suffixe "-movies" contiennent uniquement les fonctionnalités "movie_id", "movie_title" et "movie_genres".

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens/25m-ratings (configuration par défaut)

  • Description Config: Cet ensemble de données contient 25,000,095 évaluations à travers 62,423 films, créé par 162,541 utilisateurs du 09 Janvier, 1995 et 21 Novembre
  • Cet ensemble de données est la dernière version stable de l'ensemble de données MovieLens, généré le 21 novembre 2019.

Chaque utilisateur a évalué au moins 20 films. Les notes sont par incréments d'une demi-étoile. Cet ensemble de données ne comprend pas de données démographiques.

  • Taille du téléchargement: 249.84 MiB

  • Taille Dataset: 3.89 GiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'train' 25 000 095
  • Caractéristiques:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movielens/25m-films

  • Description Config: Cet ensemble de données contient des données de 62,423 films notés dans l'ensemble de données de 25m.

  • Taille du téléchargement: 249.84 MiB

  • Dataset Taille: 5.71 MiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'train' 62 423
  • Caractéristiques:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens/dernières-petites-notes

  • Description Config: Cet ensemble de données contient 100,836 évaluations à travers 9,742 films, créé par 610 utilisateurs entre le 29 Mars, 1996 et le 24 Septembre 2018. Cet ensemble de données est généré le 26 Septembre 2018 et est un sous - ensemble de la dernière version complète du jeu de données MovieLens . Cet ensemble de données est modifié et mis à jour au fil du temps.

Chaque utilisateur a évalué au moins 20 films. Les notes sont par incréments d'une demi-étoile. Cet ensemble de données ne comprend pas de données démographiques.

  • Taille du téléchargement: 955.28 KiB

  • Dataset Taille: 15.82 MiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'train' 100 836
  • Caractéristiques:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movielens/derniers-petits-films

  • Description Config: Cet ensemble de données contient des données de 9,742 films notés dans le dernier petit-ensemble de données.

  • Taille du téléchargement: 955.28 KiB

  • Dataset Taille: 910.64 KiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'train' 9 742
  • Caractéristiques:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens/100k-notes

  • Description Config: Cet ensemble de données contient 100.000 évaluations de 943 utilisateurs sur 1682 films. Cet ensemble de données est la version la plus ancienne de l'ensemble de données MovieLens.

Chaque utilisateur a évalué au moins 20 films. Les notes sont par incréments d'étoiles entières. Cet ensemble de données contient des données démographiques sur les utilisateurs en plus des données sur les films et les classements.

  • Taille du téléchargement: 4.70 MiB

  • Dataset Taille: 32.41 MiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'train' 100 000
  • Caractéristiques:
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'raw_user_age': tf.float32,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

movielens/100k-films

  • Description Config: Cet ensemble de données contient des données de 1682 films notés dans l'ensemble de données de 100k.

  • Taille du téléchargement: 4.70 MiB

  • Dataset Taille: 150.35 KiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'train' 1 682
  • Caractéristiques:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens/1m-notes

  • Description Config: Cet ensemble de données contient 1,000,209 évaluations anonymes d'environ 3 900 films réalisés par 6.040 utilisateurs MovieLens qui se sont joints à MovieLens
  • Cet ensemble de données est le plus grand ensemble de données qui inclut des données démographiques.

Chaque utilisateur a évalué au moins 20 films. Les notes sont par incréments d'étoiles entières. Dans les données démographiques, les valeurs d'âge sont divisées en plages et la valeur d'âge la plus basse pour chaque plage est utilisée dans les données au lieu des valeurs réelles.

  • Taille du téléchargement: 5.64 MiB

  • Dataset Taille: 308.42 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'train' 1 000 209
  • Caractéristiques:
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

movielens/1m-films

  • Description Config: Cet ensemble de données contient des données d'environ 3.900 films notés dans l'ensemble de données de 1m.

  • Taille du téléchargement: 5.64 MiB

  • Dataset Taille: 351.12 KiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'train' 3 883
  • Caractéristiques:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens/20m-notes

  • Description Config: Cet ensemble de données contient 20,000,263 évaluations à travers 27,278 films, créé par 138,493 utilisateurs du 09 Janvier 1995 et le 31 Mars 2015. Cet ensemble de données a été généré le 17 Octobre, ici 2016.

Chaque utilisateur a évalué au moins 20 films. Les notes sont par incréments d'une demi-étoile. Cet ensemble de données ne contient pas de données démographiques.

  • Taille du téléchargement: 189.50 MiB

  • Taille Dataset: 3.10 GiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'train' 20 000 263
  • Caractéristiques:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movielens/20m-films

  • Description Config: Cet ensemble de données contient des données de 27,278 films notés dans l'ensemble de données de 20 m

  • Taille du téléchargement: 189.50 MiB

  • Dataset Taille: 2.55 MiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'train' 27 278
  • Caractéristiques:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})