movie_lens

  • Descrição :

Este conjunto de dados contém um conjunto de classificações de filmes do site MovieLens, um serviço de recomendação de filmes. Este conjunto de dados foi coletado e mantido pelo GroupLens , um grupo de pesquisa da Universidade de Minnesota. Existem 5 versões incluídas: "25m", "latest-small", "100k", "1m", "20m". Em todos os conjuntos de dados, os dados de filmes e dados de classificação são unidos em "movieId". O conjunto de dados de 25m, o conjunto de dados do último pequeno e o conjunto de dados de 20m contêm apenas dados de filmes e dados de classificação. O conjunto de dados de 1m e o conjunto de dados de 100k contêm dados demográficos, além de dados de filmes e classificação.

  • "25m": esta é a última versão estável do conjunto de dados MovieLens. É recomendado para fins de pesquisa.
  • "latest-small": Este é um pequeno subconjunto da versão mais recente do conjunto de dados MovieLens. Ele é alterado e atualizado ao longo do tempo pelo GroupLens.
  • "100k": esta é a versão mais antiga dos conjuntos de dados MovieLens. É um pequeno conjunto de dados com dados demográficos.
  • "1m": Este é o maior conjunto de dados do MovieLens que contém dados demográficos.
  • "20m": Este é um dos conjuntos de dados do MovieLens mais usados ​​em trabalhos acadêmicos junto com o conjunto de dados de 1m.

Para cada versão, os usuários podem visualizar apenas os dados de filmes adicionando o sufixo "-movies" (por exemplo, "25m-movies") ou os dados de classificação associados aos dados de filmes (e dados de usuários nos conjuntos de dados de 1m e 100k) adicionando o sufixo "-ratings" (por exemplo, "25m-ratings").

Os recursos abaixo estão incluídos em todas as versões com o sufixo "-ratings".

  • "movie_id": um identificador exclusivo do filme avaliado
  • "movie_title": o título do filme classificado com o ano de lançamento entre parênteses
  • "movie_genres": uma sequência de gêneros aos quais o filme classificado pertence
  • "user_id": um identificador único do usuário que fez a classificação
  • "user_rating": a pontuação da classificação em uma escala de cinco estrelas
  • "timestamp": o timestamp das avaliações, representado em segundos desde a meia-noite do Tempo Universal Coordenado (UTC) de 1º de janeiro de 1970

Além disso, as versões "100k-ratings" e "1m-ratings" incluem os seguintes recursos demográficos.

  • "user_gender": gênero do usuário que fez a avaliação; um valor verdadeiro corresponde ao masculino
  • "bucketized_user_age": valores agrupados da idade do usuário que fez a classificação, os valores e as faixas correspondentes são:
    • 1: "Sub 18"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "user_occupation_label": a ocupação do usuário que fez a classificação representada por um rótulo codificado por inteiro; os rótulos são pré-processados ​​para serem consistentes em diferentes versões
  • "user_occupation_text": a ocupação do usuário que fez a classificação na string original; versões diferentes podem ter conjuntos diferentes de rótulos de texto bruto
  • "user_zip_code": o CEP do usuário que fez a classificação

Além disso, o conjunto de dados "100k-ratings" também teria um recurso "raw_user_age", que é a idade exata dos usuários que fizeram a classificação

Os conjuntos de dados com o sufixo "-movies" contêm apenas os recursos "movie_id", "movie_title" e "movie_genres".

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movie_lens/25m-ratings (configuração padrão)

  • Descrição da configuração : este conjunto de dados contém 25.000.095 classificações em 62.423 filmes, criados por 162.541 usuários entre 09 de janeiro de 1995 e 21 de novembro de
  • Este conjunto de dados é a versão estável mais recente do conjunto de dados MovieLens, gerado em 21 de novembro de 2019.

Cada usuário avaliou pelo menos 20 filmes. As classificações são em incrementos de meia estrela. Este conjunto de dados não inclui dados demográficos.

  • Tamanho do download : 249.84 MiB

  • Tamanho do conjunto de dados : 3.89 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'train' 25.000.095
  • Estrutura de recursos :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
movie_genres Sequência(ClassLabel) (Nenhum,) int64
id_do_filme tensor corda
título do filme tensor corda
carimbo de data/hora tensor int64
ID do usuário tensor corda
avaliação do utilizador tensor float32

movie_lens/25m-movies

  • Descrição da configuração : este conjunto de dados contém dados de 62.423 filmes classificados no conjunto de dados de 25m.

  • Tamanho do download : 249.84 MiB

  • Tamanho do conjunto de dados : 5.71 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 62.423
  • Estrutura de recursos :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
movie_genres Sequência(ClassLabel) (Nenhum,) int64
id_do_filme tensor corda
título do filme tensor corda

movie_lens/latest-small-ratings

  • Descrição da configuração : este conjunto de dados contém 100.836 classificações em 9.742 filmes, criados por 610 usuários entre 29 de março de 1996 e 24 de setembro de 2018. Este conjunto de dados foi gerado em 26 de setembro de 2018 e é um subconjunto da versão mais recente completa do conjunto de dados MovieLens . Este conjunto de dados é alterado e atualizado ao longo do tempo.

Cada usuário avaliou pelo menos 20 filmes. As classificações são em incrementos de meia estrela. Este conjunto de dados não inclui dados demográficos.

  • Tamanho do download : 955.28 KiB

  • Tamanho do conjunto de dados : 15.82 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 100.836
  • Estrutura de recursos :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
movie_genres Sequência(ClassLabel) (Nenhum,) int64
id_do_filme tensor corda
título do filme tensor corda
carimbo de data/hora tensor int64
ID do usuário tensor corda
avaliação do utilizador tensor float32

movie_lens/últimos-pequenos-filmes

  • Descrição da configuração : este conjunto de dados contém dados de 9.742 filmes classificados no conjunto de dados pequeno mais recente.

  • Tamanho do download : 955.28 KiB

  • Tamanho do conjunto de dados : 910.64 KiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 9.742
  • Estrutura de recursos :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
movie_genres Sequência(ClassLabel) (Nenhum,) int64
id_do_filme tensor corda
título do filme tensor corda

movie_lens/100k-ratings

  • Descrição da configuração : este conjunto de dados contém 100.000 avaliações de 943 usuários em 1.682 filmes. Este conjunto de dados é a versão mais antiga do conjunto de dados MovieLens.

Cada usuário avaliou pelo menos 20 filmes. As classificações são em incrementos de estrelas inteiras. Este conjunto de dados contém dados demográficos dos usuários, além de dados sobre filmes e avaliações.

  • Tamanho do download : 4.70 MiB

  • Tamanho do conjunto de dados : 32.41 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 100.000
  • Estrutura de recursos :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
bucketized_user_age tensor float32
movie_genres Sequência(ClassLabel) (Nenhum,) int64
id_do_filme tensor corda
título do filme tensor corda
raw_user_age tensor float32
carimbo de data/hora tensor int64
user_gender tensor bool
ID do usuário tensor corda
user_occupation_label ClassLabel int64
user_occupation_text tensor corda
avaliação do utilizador tensor float32
user_zip_code tensor corda

movie_lens/100k-movies

  • Descrição da configuração : este conjunto de dados contém dados de 1.682 filmes classificados no conjunto de dados de 100k.

  • Tamanho do download : 4.70 MiB

  • Tamanho do conjunto de dados : 150.35 KiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 1.682
  • Estrutura de recursos :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
movie_genres Sequência(ClassLabel) (Nenhum,) int64
id_do_filme tensor corda
título do filme tensor corda

movie_lens/1m-ratings

  • Descrição da configuração : este conjunto de dados contém 1.000.209 avaliações anônimas de aproximadamente 3.900 filmes feitos por 6.040 usuários do MovieLens que ingressaram no MovieLens em
  • Este conjunto de dados é o maior conjunto de dados que inclui dados demográficos.

Cada usuário avaliou pelo menos 20 filmes. As classificações são em incrementos de estrelas inteiras. Nos dados demográficos, os valores de idade são divididos em intervalos e o menor valor de idade para cada intervalo é usado nos dados em vez dos valores reais.

  • Tamanho do download : 5.64 MiB

  • Tamanho do conjunto de dados : 308.42 MiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'train' 1.000.209
  • Estrutura de recursos :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
bucketized_user_age tensor float32
movie_genres Sequência(ClassLabel) (Nenhum,) int64
id_do_filme tensor corda
título do filme tensor corda
carimbo de data/hora tensor int64
user_gender tensor bool
ID do usuário tensor corda
user_occupation_label ClassLabel int64
user_occupation_text tensor corda
avaliação do utilizador tensor float32
user_zip_code tensor corda

movie_lens/1m-movies

  • Descrição da configuração : este conjunto de dados contém dados de aproximadamente 3.900 filmes classificados no conjunto de dados de 1m.

  • Tamanho do download : 5.64 MiB

  • Tamanho do conjunto de dados : 351.12 KiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 3.883
  • Estrutura de recursos :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
movie_genres Sequência(ClassLabel) (Nenhum,) int64
id_do_filme tensor corda
título do filme tensor corda

movie_lens/20m-ratings

  • Descrição da configuração : este conjunto de dados contém 20.000.263 classificações em 27.278 filmes, criados por 138.493 usuários entre 09 de janeiro de 1995 e 31 de março de 2015. Este conjunto de dados foi gerado em 17 de outubro de 2016.

Cada usuário avaliou pelo menos 20 filmes. As classificações são em incrementos de meia estrela. Este conjunto de dados não contém dados demográficos.

  • Tamanho do download : 189.50 MiB

  • Tamanho do conjunto de dados : 3.10 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'train' 20.000.263
  • Estrutura de recursos :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
movie_genres Sequência(ClassLabel) (Nenhum,) int64
id_do_filme tensor corda
título do filme tensor corda
carimbo de data/hora tensor int64
ID do usuário tensor corda
avaliação do utilizador tensor float32

movie_lens/20m-movies

  • Descrição da configuração : este conjunto de dados contém dados de 27.278 filmes classificados no conjunto de dados de 20 m

  • Tamanho do download : 189.50 MiB

  • Tamanho do conjunto de dados : 2.55 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 27.278
  • Estrutura de recursos :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
movie_genres Sequência(ClassLabel) (Nenhum,) int64
id_do_filme tensor corda
título do filme tensor corda