TFDS supporte désormais le format Croissant 🥐 ! Lisez la documentation pour en savoir plus.

Cette page a été traduite par l'API Cloud Translation.

objectif de cinéma

Descriptif :

Cet ensemble de données contient un ensemble de classements de films du site Web MovieLens, un service de recommandation de films. Cet ensemble de données a été collecté et maintenu par GroupLens , un groupe de recherche de l'Université du Minnesota. Il existe 5 versions incluses : "25m", "latest-small", "100k", "1m", "20m". Dans tous les ensembles de données, les données de films et les données d'évaluation sont jointes sur "movieId". L'ensemble de données 25 m, l'ensemble de données le plus récent et l'ensemble de données 20 m ne contiennent que des données de film et des données d'évaluation. L'ensemble de données 1m et l'ensemble de données 100k contiennent des données démographiques en plus des données sur les films et les classements.

"25m": Il s'agit de la dernière version stable de l'ensemble de données MovieLens. Il est recommandé à des fins de recherche.
"latest-small" : il s'agit d'un petit sous-ensemble de la dernière version de l'ensemble de données MovieLens. Il est modifié et mis à jour au fil du temps par GroupLens.
"100k": Il s'agit de la version la plus ancienne des ensembles de données MovieLens. Il s'agit d'un petit ensemble de données contenant des données démographiques.
"1 m" : il s'agit du plus grand ensemble de données MovieLens contenant des données démographiques.
"20m": Il s'agit de l'un des ensembles de données MovieLens les plus utilisés dans les articles universitaires avec l'ensemble de données 1m.

Pour chaque version, les utilisateurs peuvent afficher soit uniquement les données des films en ajoutant le suffixe "-movies" (par exemple "25m-movies"), soit les données d'évaluation jointes aux données des films (et les données des utilisateurs dans les ensembles de données 1m et 100k) en ajoutant le suffixe "-ratings" (par exemple "25m-ratings").

Les fonctionnalités ci-dessous sont incluses dans toutes les versions avec le suffixe "-ratings".

"movie_id": un identifiant unique du film noté
"movie_title": le titre du film classé avec l'année de sortie entre parenthèses
"movie_genres": une séquence de genres auxquels appartient le film classé
"user_id": un identifiant unique de l'utilisateur qui a fait l'évaluation
"user_rating": le score de la note sur une échelle de cinq étoiles
"horodatage" : l'horodatage des notes, représenté en secondes depuis minuit Temps universel coordonné (UTC) du 1er janvier 1970

Les versions "100k-ratings" et "1m-ratings" incluent en outre les caractéristiques démographiques suivantes.

"user_gender" : sexe de l'utilisateur qui a effectué l'évaluation ; une vraie valeur correspond au masculin
"bucketized_user_age" : les valeurs d'âge de l'utilisateur qui a effectué l'évaluation, les valeurs et les plages correspondantes sont :
- 1 : "Moins de 18 ans"
- 18: "18-24"
- 25 : "25-34"
- 35 : "35-44"
- 45 : "45-49"
- 50 : "50-55"
- 56 : "56+"
« user_occupation_label » : la profession de l'utilisateur qui a effectué l'évaluation représentée par une étiquette codée en nombre entier ; les étiquettes sont prétraitées pour être cohérentes entre les différentes versions
"user_occupation_text": la profession de l'utilisateur qui a fait l'évaluation dans la chaîne d'origine ; différentes versions peuvent avoir un ensemble différent d'étiquettes de texte brut
"user_zip_code": le code postal de l'utilisateur qui a fait l'évaluation

De plus, l'ensemble de données "100k-ratings" aurait également une fonctionnalité "raw_user_age" qui est l'âge exact des utilisateurs qui ont fait la note

Les ensembles de données avec le suffixe "-movies" contiennent uniquement les fonctionnalités "movie_id", "movie_title" et "movie_genres".

Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://grouplens.org/datasets/movielens/
Code source : tfds.structured.Movielens
Versions :
- 0.1.1 (par défaut) : aucune note de version.
Clés supervisées (Voir as_supervised doc ): None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens/25m-ratings (configuration par défaut)

Description de la configuration : cet ensemble de données contient 25 000 095 avis sur 62 423 films, créés par 162 541 utilisateurs entre le 9 janvier 1995 et le 21 novembre.
Cet ensemble de données est la dernière version stable de l'ensemble de données MovieLens, généré le 21 novembre 2019.

Chaque utilisateur a évalué au moins 20 films. Les notes sont par incréments d'une demi-étoile. Cet ensemble de données ne comprend pas de données démographiques.

Taille du téléchargement : 249.84 MiB
Taille du jeu de données : 3.89 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :

Diviser	Exemples
`'train'`	25 000 095

Structure des fonctionnalités :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
movie_genres	Séquence(ClassLabel)	(Aucun,)	int64
movie_id	Tenseur		chaîne de caractères
titre du film	Tenseur		chaîne de caractères
horodatage	Tenseur		int64
identifiant d'utilisateur	Tenseur		chaîne de caractères
note de l'utilisateur	Tenseur		float32

Exemples ( tfds.as_dataframe ):

movielens/25m-films

Description de la configuration : cet ensemble de données contient les données de 62 423 films classés dans l'ensemble de données de 25 m.
Taille du téléchargement : 249.84 MiB
Taille du jeu de données : 5.71 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :

Diviser	Exemples
`'train'`	62 423

Structure des fonctionnalités :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
movie_genres	Séquence(ClassLabel)	(Aucun,)	int64
movie_id	Tenseur		chaîne de caractères
titre du film	Tenseur		chaîne de caractères

Exemples ( tfds.as_dataframe ):

movielens/dernières-petites-notes

Description de la configuration : cet ensemble de données contient 100 836 notes sur 9 742 films, créés par 610 utilisateurs entre le 29 mars 1996 et le 24 septembre 2018. Cet ensemble de données est généré le 26 septembre 2018 et constitue un sous-ensemble de la dernière version complète de l'ensemble de données MovieLens. . Cet ensemble de données est modifié et mis à jour au fil du temps.

Chaque utilisateur a évalué au moins 20 films. Les notes sont par incréments d'une demi-étoile. Cet ensemble de données ne comprend pas de données démographiques.

Taille du téléchargement : 955.28 KiB
Taille du jeu de données : 15.82 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :

Diviser	Exemples
`'train'`	100 836

Structure des fonctionnalités :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
movie_genres	Séquence(ClassLabel)	(Aucun,)	int64
movie_id	Tenseur		chaîne de caractères
titre du film	Tenseur		chaîne de caractères
horodatage	Tenseur		int64
identifiant d'utilisateur	Tenseur		chaîne de caractères
note de l'utilisateur	Tenseur		float32

Exemples ( tfds.as_dataframe ):

movielens/derniers-petits-films

Description de la configuration : cet ensemble de données contient les données de 9 742 films classés dans le dernier petit ensemble de données.
Taille du téléchargement : 955.28 KiB
Taille du jeu de données : 910.64 KiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :

Diviser	Exemples
`'train'`	9 742

Structure des fonctionnalités :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
movie_genres	Séquence(ClassLabel)	(Aucun,)	int64
movie_id	Tenseur		chaîne de caractères
titre du film	Tenseur		chaîne de caractères

Exemples ( tfds.as_dataframe ):

movielens/100k-notes

Description de la configuration : cet ensemble de données contient 100 000 avis de 943 utilisateurs sur 1 682 films. Cet ensemble de données est la version la plus ancienne de l'ensemble de données MovieLens.

Chaque utilisateur a évalué au moins 20 films. Les notes sont par incréments d'étoiles entières. Cet ensemble de données contient des données démographiques sur les utilisateurs en plus des données sur les films et les classements.

Taille du téléchargement : 4.70 MiB
Taille du jeu de données : 32.41 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :

Diviser	Exemples
`'train'`	100 000

Structure des fonctionnalités :

FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
bucketized_user_age	Tenseur		float32
movie_genres	Séquence(ClassLabel)	(Aucun,)	int64
movie_id	Tenseur		chaîne de caractères
titre du film	Tenseur		chaîne de caractères
raw_user_age	Tenseur		float32
horodatage	Tenseur		int64
user_gender	Tenseur		bourdonner
identifiant d'utilisateur	Tenseur		chaîne de caractères
user_occupation_label	Étiquette de classe		int64
user_occupation_text	Tenseur		chaîne de caractères
note de l'utilisateur	Tenseur		float32
code_zip_utilisateur	Tenseur		chaîne de caractères

Exemples ( tfds.as_dataframe ):

movielens/100k-films

Description de la configuration : cet ensemble de données contient les données de 1 682 films classés dans l'ensemble de données 100 000.
Taille du téléchargement : 4.70 MiB
Taille du jeu de données : 150.35 KiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :

Diviser	Exemples
`'train'`	1 682

Structure des fonctionnalités :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
movie_genres	Séquence(ClassLabel)	(Aucun,)	int64
movie_id	Tenseur		chaîne de caractères
titre du film	Tenseur		chaîne de caractères

Exemples ( tfds.as_dataframe ):

movielens/1m-notes

Description de la configuration : cet ensemble de données contient 1 000 209 évaluations anonymes d'environ 3 900 films réalisés par 6 040 utilisateurs de MovieLens qui ont rejoint MovieLens en
Cet ensemble de données est le plus grand ensemble de données qui inclut des données démographiques.

Chaque utilisateur a évalué au moins 20 films. Les notes sont par incréments d'étoiles entières. Dans les données démographiques, les valeurs d'âge sont divisées en plages et la valeur d'âge la plus basse pour chaque plage est utilisée dans les données au lieu des valeurs réelles.

Taille du téléchargement : 5.64 MiB
Taille du jeu de données : 308.42 MiB
Mise en cache automatique ( documentation ): Non
Fractionnements :

Diviser	Exemples
`'train'`	1 000 209

Structure des fonctionnalités :

FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
bucketized_user_age	Tenseur		float32
movie_genres	Séquence(ClassLabel)	(Aucun,)	int64
movie_id	Tenseur		chaîne de caractères
titre du film	Tenseur		chaîne de caractères
horodatage	Tenseur		int64
user_gender	Tenseur		bourdonner
identifiant d'utilisateur	Tenseur		chaîne de caractères
user_occupation_label	Étiquette de classe		int64
user_occupation_text	Tenseur		chaîne de caractères
note de l'utilisateur	Tenseur		float32
code_zip_utilisateur	Tenseur		chaîne de caractères

Exemples ( tfds.as_dataframe ):

movielens/1m-films

Description de la configuration : cet ensemble de données contient les données d'environ 3 900 films classés dans l'ensemble de données de 1 m.
Taille du téléchargement : 5.64 MiB
Taille du jeu de données : 351.12 KiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :

Diviser	Exemples
`'train'`	3 883

Structure des fonctionnalités :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
movie_genres	Séquence(ClassLabel)	(Aucun,)	int64
movie_id	Tenseur		chaîne de caractères
titre du film	Tenseur		chaîne de caractères

Exemples ( tfds.as_dataframe ):

movielens/20m-notes

Description de la configuration : cet ensemble de données contient 20 000 263 avis sur 27 278 films, créés par 138 493 utilisateurs entre le 9 janvier 1995 et le 31 mars 2015. Cet ensemble de données a été généré le 17 octobre 2016.

Chaque utilisateur a évalué au moins 20 films. Les notes sont par incréments d'une demi-étoile. Cet ensemble de données ne contient pas de données démographiques.

Taille du téléchargement : 189.50 MiB
Taille du jeu de données : 3.10 GiB
Mise en cache automatique ( documentation ): Non
Fractionnements :

Diviser	Exemples
`'train'`	20 000 263

Structure des fonctionnalités :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
movie_genres	Séquence(ClassLabel)	(Aucun,)	int64
movie_id	Tenseur		chaîne de caractères
titre du film	Tenseur		chaîne de caractères
horodatage	Tenseur		int64
identifiant d'utilisateur	Tenseur		chaîne de caractères
note de l'utilisateur	Tenseur		float32

Exemples ( tfds.as_dataframe ):

movielens/20m-films

Description de la configuration : cet ensemble de données contient les données de 27 278 films classés dans l'ensemble de données de 20 m
Taille du téléchargement : 189.50 MiB
Taille du jeu de données : 2.55 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :

Diviser	Exemples
`'train'`	27 278

Structure des fonctionnalités :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
movie_genres	Séquence(ClassLabel)	(Aucun,)	int64
movie_id	Tenseur		chaîne de caractères
titre du film	Tenseur		chaîne de caractères

Exemples ( tfds.as_dataframe ):

objectif de cinéma Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.