Эта страница была переведа с помощью Cloud Translation API.
Switch to English

movie_lens

  • Описание :

Этот набор данных содержит набор рейтингов фильмов с веб-сайта MovieLens, службы рекомендаций фильмов. Этот набор данных был собран и поддержан группой GroupLens , исследовательской группой Университета Миннесоты. Включено 5 версий: «25м», «последняя-малая», «100к», «1м», «20м». Во всех наборах данных данные о фильмах и данные о рейтингах объединяются в "movieId". Набор данных длиной 25 м, набор данных последний-малый и набор данных 20 м содержат только данные о фильмах и рейтинговые данные. Набор данных длиной 1 метр и набор данных 100 000 содержат демографические данные в дополнение к данным о фильмах и рейтингах.

  • «25 м»: это последняя стабильная версия набора данных MovieLens. Рекомендуется для исследовательских целей.
  • "latest-small": это небольшая часть последней версии набора данных MovieLens. GroupLens со временем меняет и обновляет.
  • «100k»: это самая старая версия наборов данных MovieLens. Это небольшой набор данных с демографическими данными.
  • «1 м»: это самый большой набор данных MovieLens, содержащий демографические данные.
  • «20 м»: это один из наиболее часто используемых наборов данных MovieLens в научных статьях наряду с набором данных 1 м.

Для каждой версии пользователи могут просматривать либо только данные фильмов, добавив суффикс «-movies» (например, «25m-movies»), либо данные рейтингов, объединенные с данными фильмов (и данные пользователей в наборах данных 1m и 100k), добавив суффикс «-рейтинги» (например, «25м-рейтинги»).

Приведенные ниже функции включены во все версии с суффиксом «-ratings».

  • "movie_id": уникальный идентификатор фильма с рейтингом.
  • "movie_title": название фильма с рейтингом, в скобках указан год выпуска.
  • "movie_genres": последовательность жанров, к которым принадлежит рейтинговый фильм.
  • user_id: уникальный идентификатор пользователя, выставившего оценку
  • "user_rating": оценка по пятибалльной шкале.
  • "timestamp": отметка времени оценок, представленная в секундах с полуночи по всемирному координированному времени (UTC) 1 января 1970 г.

Версии «100k-рейтингов» и «1m-рейтинги» дополнительно включают следующие демографические характеристики.

  • user_gender: пол пользователя, составившего рейтинг; истинное значение соответствует мужчине
  • "bucketized_user_age": значения возраста пользователя, составившего рейтинг, сгруппированные по возрасту, значения и соответствующие диапазоны:
    • 1: «До 18 лет»
    • 18: «18-24»
    • 25: «25-34»
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • «user_occupation_label»: род занятий пользователя, который составил рейтинг, представленный меткой с целочисленным кодированием; метки предварительно обрабатываются, чтобы быть согласованными в разных версиях
  • «user_occupation_text»: род занятий пользователя, который поставил оценку в исходной строке; разные версии могут иметь разный набор необработанных текстовых меток
  • user_zip_code: почтовый индекс пользователя, который составил рейтинг.

Кроме того, в наборе данных «100 тыс. Оценок» будет также функция raw_user_age, которая указывает точный возраст пользователей, сделавших оценку.

Наборы данных с суффиксом «-movies» содержат только функции «movie_id», «movie_title» и «movie_genres».

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movie_lens / 25m-rating (конфигурация по умолчанию)

  • Описание конфигурации : этот набор данных содержит 25 000 095 оценок для 62 423 фильмов, созданных 162 541 пользователем в период с 9 января 1995 г. по 21 ноября.
  • Этот набор данных является последней стабильной версией набора данных MovieLens, созданной 21 ноября 2019 г.

Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в ползвезды. Этот набор данных не включает демографические данные.

  • Размер загрузки : 249.84 MiB

  • Размер набора данных : 3.89 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплит :

Трещина Примеры
'train' 25 000 095
  • Особенности :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movie_lens / 25m-фильмы

  • Описание конфигурации : этот набор данных содержит данные о 62 423 фильмах, оцененных в 25-метровом наборе данных.

  • Размер загрузки : 249.84 MiB

  • Размер набора данных : 5.71 MiB

  • Автоматическое кэширование ( документация ): Да

  • Сплит :

Трещина Примеры
'train' 62 423
  • Особенности :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movie_lens / latest-small-rating

  • Описание конфигурации : этот набор данных содержит 100 836 оценок для 9742 фильмов, созданных 610 пользователями в период с 29 марта 1996 г. по 24 сентября 2018 г. Этот набор данных создан 26 сентября 2018 г. и является подмножеством последней полной версии набора данных MovieLens. . Этот набор данных изменяется и обновляется с течением времени.

Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в ползвезды. Этот набор данных не включает демографические данные.

  • Размер загрузки : 955.28 KiB

  • Размер набора данных : 15.82 MiB

  • Автоматическое кэширование ( документация ): Да

  • Сплит :

Трещина Примеры
'train' 100 836
  • Особенности :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movie_lens / latest-small-movies

  • Описание конфигурации : этот набор данных содержит данные о 9 742 фильмах, оцененных в наборе данных latest-small.

  • Размер загрузки : 955.28 KiB

  • Размер набора данных : 910.64 KiB

  • Автоматическое кэширование ( документация ): Да

  • Сплит :

Трещина Примеры
'train' 9 742
  • Особенности :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movie_lens / 100k-оценок

  • Описание конфигурации : Этот набор данных содержит 100 000 оценок от 943 пользователей для 1682 фильмов. Этот набор данных является самой старой версией набора данных MovieLens.

Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в звездочку. Этот набор данных содержит демографические данные пользователей в дополнение к данным о фильмах и рейтингах.

  • Размер загрузки : 4.70 MiB

  • Размер набора данных : 32.41 MiB

  • Автоматическое кэширование ( документация ): Да

  • Сплит :

Трещина Примеры
'train' 100 000
  • Особенности :
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'raw_user_age': tf.float32,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

movie_lens / 100k-фильмов

  • Описание конфигурации : этот набор данных содержит данные о 1682 фильмах, оцененных в наборе данных 100 тыс.

  • Размер загрузки : 4.70 MiB

  • Размер набора данных : 150.35 KiB

  • Автоматическое кэширование ( документация ): Да

  • Сплит :

Трещина Примеры
'train' 1,682
  • Особенности :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movie_lens / 1m-рейтинги

  • Описание конфигурации : Этот набор данных содержит 1 000 209 анонимных оценок примерно 3900 фильмов, созданных 6040 пользователями MovieLens, которые присоединились к MovieLens в
  • Этот набор данных является самым большим набором данных, который включает демографические данные.

Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в звездочку. В демографических данных значения возраста делятся на диапазоны, и в данных используется наименьшее значение возраста для каждого диапазона вместо фактических значений.

  • Размер загрузки : 5.64 MiB

  • Размер набора данных : 308.42 MiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплит :

Трещина Примеры
'train' 1 000 209
  • Особенности :
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

movie_lens / 1m-фильмы

  • Описание конфигурации : этот набор данных содержит данные примерно о 3900 фильмах, оцененных в 1-метровом наборе данных.

  • Размер загрузки : 5.64 MiB

  • Размер набора данных : 351.12 KiB

  • Автоматическое кэширование ( документация ): Да

  • Сплит :

Трещина Примеры
'train' 3 883
  • Особенности :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movie_lens / 20m-рейтинги

  • Описание конфигурации : этот набор данных содержит 20 000 263 оценок для 27 278 фильмов, созданных 138 493 пользователями в период с 9 января 1995 г. по 31 марта 2015 г. Этот набор данных был создан 17 октября 2016 г.

Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в ползвезды. Этот набор данных не содержит демографических данных.

  • Размер загрузки : 189.50 MiB

  • Размер набора данных : 3.10 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплит :

Трещина Примеры
'train' 20 000 263
  • Особенности :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movie_lens / 20m-фильмы

  • Описание конфигурации : этот набор данных содержит данные о 27 278 фильмах, оцененных в 20-метровом наборе данных.

  • Размер загрузки : 189.50 MiB

  • Размер набора данных : 2.55 MiB

  • Автоматическое кэширование ( документация ): Да

  • Сплит :

Трещина Примеры
'train' 27 278
  • Особенности :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})