O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

movie_lens

  • Descrição:

Este conjunto de dados contém um conjunto de classificações de filmes do site MovieLens, um serviço de recomendação de filmes. Este conjunto de dados foi coletado e mantido por GroupLens , um grupo de pesquisa na Universidade de Minnesota. Existem 5 versões incluídas: "25m", "mais recente-pequeno", "100k", "1m", "20m". Em todos os conjuntos de dados, os dados dos filmes e os dados das classificações são reunidos em "movieId". O conjunto de dados de 25 m, o conjunto de dados mais recente e pequeno e o conjunto de dados de 20 m contêm apenas dados de filme e dados de classificação. O conjunto de dados de 1m e o conjunto de dados de 100k contêm dados demográficos, além de filmes e dados de classificação.

  • "25m": esta é a versão estável mais recente do conjunto de dados MovieLens. É recomendado para fins de pesquisa.
  • "latest-small": este é um pequeno subconjunto da versão mais recente do conjunto de dados MovieLens. Ele é alterado e atualizado ao longo do tempo por GroupLens.
  • "100k": esta é a versão mais antiga dos conjuntos de dados MovieLens. É um pequeno conjunto de dados com dados demográficos.
  • "1m": Este é o maior conjunto de dados MovieLens que contém dados demográficos.
  • "20m": este é um dos conjuntos de dados MovieLens mais usados ​​em trabalhos acadêmicos junto com o conjunto de dados 1m.

Para cada versão, os usuários podem visualizar apenas os dados dos filmes adicionando o sufixo "-movies" (por exemplo, "25m-movies") ou os dados de classificação unidos aos dados dos filmes (e dados dos usuários nos conjuntos de dados de 1m e 100k) adicionando o sufixo "-ratings" (por exemplo, "25m-ratings").

Os recursos abaixo estão incluídos em todas as versões com o sufixo "-ratings".

  • "movie_id": um identificador único do filme avaliado
  • "movie_title": o título do filme avaliado com o ano de lançamento entre parênteses
  • "movie_genres": uma sequência de gêneros aos quais o filme classificado pertence
  • "user_id": um identificador único do usuário que fez a avaliação
  • "user_rating": a pontuação da avaliação em uma escala de cinco estrelas
  • "timestamp": o timestamp das avaliações, representado em segundos desde a meia-noite do Coordinated Universal Time (UTC) de 1º de janeiro de 1970

As versões de "classificações de 100 mil" e "classificações de 1 milhão" também incluem os seguintes recursos demográficos.

  • "user_gender": sexo do usuário que fez a avaliação; um valor verdadeiro corresponde a masculino
  • "bucketized_user_age": valores de idade em intervalos do usuário que fez a avaliação, os valores e os intervalos correspondentes são:
    • 1: "Menores de 18"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "user_occupation_label": a ocupação do usuário que fez a avaliação representada por um rótulo codificado por inteiro; rótulos são pré-processados ​​para serem consistentes em diferentes versões
  • "user_occupation_text": a ocupação do usuário que fez a avaliação na string original; diferentes versões podem ter diferentes conjuntos de rótulos de texto bruto
  • "user_zip_code": o código postal do usuário que fez a avaliação

Além disso, o conjunto de dados de "100 mil avaliações" também teria um recurso "raw_user_age", que mostra a idade exata dos usuários que fizeram a avaliação

Os conjuntos de dados com o sufixo "-movies" contêm apenas os recursos "movie_id", "movie_title" e "movie_genres".

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movie_lens / 25m-ratings (configuração padrão)

  • A inscrição Config: Este conjunto de dados contém 25,000,095 classificações em toda 62,423 filmes, criado por 162,541 utilizadores entre 09 de janeiro de 1995 e 21 de Novembro,
  • Este conjunto de dados é a versão estável mais recente do conjunto de dados MovieLens, gerado em 21 de novembro de 2019.

Cada usuário avaliou pelo menos 20 filmes. As avaliações estão em incrementos de meia estrela. Este conjunto de dados não inclui dados demográficos.

  • Tamanho do download: 249.84 MiB

  • Tamanho do conjunto de dados: 3.89 GiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 25.000.095
  • Características:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movie_lens / 25m-movies

  • A inscrição Config: Este conjunto de dados contém dados de 62,423 filmes classificados no conjunto de dados 25m.

  • Tamanho do download: 249.84 MiB

  • Dataset tamanho: 5.71 MiB

  • Cache-Auto ( documentação ): Sim

  • desdobramentos:

Dividir Exemplos
'train' 62.423
  • Características:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movie_lens / latest-small-ratings

  • Configuração Descrição: Este conjunto de dados contém 100,836 classificações através 9,742 filmes, criados por 610 usuários entre 29 março de 1996 e 24 de Setembro de 2018. Este conjunto de dados é gerado em 26 de setembro de 2018 e é a um subconjunto da mais recente versão completa do conjunto de dados MovieLens . Este conjunto de dados é alterado e atualizado ao longo do tempo.

Cada usuário avaliou pelo menos 20 filmes. As avaliações estão em incrementos de meia estrela. Este conjunto de dados não inclui dados demográficos.

  • Tamanho do download: 955.28 KiB

  • Dataset tamanho: 15.82 MiB

  • Cache-Auto ( documentação ): Sim

  • desdobramentos:

Dividir Exemplos
'train' 100.836
  • Características:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movie_lens / latest-small-movies

  • A inscrição Config: Este conjunto de dados contém dados de 9,742 filmes classificados na última pequeno conjunto de dados.

  • Tamanho do download: 955.28 KiB

  • Dataset size: 910.64 KiB

  • Cache-Auto ( documentação ): Sim

  • desdobramentos:

Dividir Exemplos
'train' 9.742
  • Características:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movie_lens / 100k-ratings

  • Configuração Descrição: Este conjunto de dados contém 100.000 classificações de 943 usuários em 1.682 filmes. Este conjunto de dados é a versão mais antiga do conjunto de dados MovieLens.

Cada usuário avaliou pelo menos 20 filmes. As avaliações são em incrementos de estrelas inteiras. Este conjunto de dados contém dados demográficos de usuários, além de dados sobre filmes e classificações.

  • Tamanho do download: 4.70 MiB

  • Dataset tamanho: 32.41 MiB

  • Cache-Auto ( documentação ): Sim

  • desdobramentos:

Dividir Exemplos
'train' 100.000
  • Características:
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'raw_user_age': tf.float32,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

movie_lens / 100k-movies

  • A inscrição Config: Este conjunto de dados contém dados de 1.682 filmes classificados no conjunto de dados de 100k.

  • Tamanho do download: 4.70 MiB

  • Dataset tamanho: 150.35 KiB

  • Cache-Auto ( documentação ): Sim

  • desdobramentos:

Dividir Exemplos
'train' 1.682
  • Características:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movie_lens / 1m-ratings

  • A inscrição Config: Este conjunto de dados contém 1,000,209 avaliações anônimas de aproximadamente 3.900 filmes feitos por 6.040 usuários MovieLens que se juntaram MovieLens em
  • Este conjunto de dados é o maior conjunto de dados que inclui dados demográficos.

Cada usuário avaliou pelo menos 20 filmes. As classificações são em incrementos de estrelas inteiras. Em dados demográficos, os valores de idade são divididos em intervalos e o menor valor de idade para cada intervalo é usado nos dados em vez dos valores reais.

  • Tamanho do download: 5.64 MiB

  • Dataset size: 308.42 MiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 1.000.209
  • Características:
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

movie_lens / 1m-movies

  • A inscrição Config: Este conjunto de dados contém dados de aproximadamente 3.900 filmes classificados no conjunto de dados 1m.

  • Tamanho do download: 5.64 MiB

  • Dataset size: 351.12 KiB

  • Cache-Auto ( documentação ): Sim

  • desdobramentos:

Dividir Exemplos
'train' 3.883
  • Características:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movie_lens / 20m-ratings

  • Configuração Descrição: Este conjunto de dados contém 20,000,263 classificações em toda 27,278 filmes, criados por 138,493 utilizadores entre 09 de janeiro de 1995 e 31 de março de 2015. Este conjunto de dados foi gerado em 17 de Outubro, de 2016.

Cada usuário avaliou pelo menos 20 filmes. As classificações são em incrementos de meia estrela. Este conjunto de dados não contém dados demográficos.

  • Tamanho do download: 189.50 MiB

  • Tamanho do conjunto de dados: 3.10 GiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'train' 20.000.263
  • Características:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movie_lens / 20m-movies

  • Configuração Descrição: Este conjunto de dados contém dados de 27,278 filmes classificados no conjunto de dados 20m

  • Tamanho do download: 189.50 MiB

  • Conjunto de dados de tamanho: 2.55 MiB

  • Cache-Auto ( documentação ): Sim

  • desdobramentos:

Dividir Exemplos
'train' 27.278
  • Características:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})