Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

кинообъектив

  • Описание :

Этот набор данных содержит набор рейтингов фильмов с веб-сайта MovieLens, службы рекомендаций фильмов. Этот набор данных был собран и поддерживается GroupLens , исследовательской группой Университета Миннесоты. В комплекте 5 версий: "25м", "последняя-маленькая", "100к", "1м", "20м". Во всех наборах данных данные фильмов и данные рейтингов объединяются в «movieId». Набор данных 25 м, последний небольшой набор данных и набор данных 20 м содержат только данные о фильмах и данные о рейтингах. Набор данных 1 млн и набор данных 100 тыс. содержат демографические данные в дополнение к данным о фильмах и рейтингах.

  • «25m»: это последняя стабильная версия набора данных MovieLens. Рекомендуется для исследовательских целей.
  • «latest-small»: это небольшое подмножество последней версии набора данных MovieLens. GroupLens со временем изменяет и обновляет его.
  • «100k»: это самая старая версия наборов данных MovieLens. Это небольшой набор данных с демографическими данными.
  • «1m»: это самый большой набор данных MovieLens, содержащий демографические данные.
  • «20 м»: это один из наиболее часто используемых наборов данных MovieLens в научных статьях наряду с набором данных 1 м.

Для каждой версии пользователи могут просматривать либо только данные о фильмах, добавляя суффикс «-movies» (например, «25 млн фильмов»), либо данные о рейтингах, объединенные с данными о фильмах (и данные о пользователях в наборах данных 1 млн и 100 тыс.), добавляя суффикс "-рейтинги" (например, "25m-рейтинги").

Перечисленные ниже функции включены во все версии с суффиксом «-ratings».

  • "movie_id": уникальный идентификатор оцениваемого фильма.
  • «movie_title»: название рейтингового фильма с годом выпуска в скобках.
  • «movie_genres»: последовательность жанров, к которым относится оцениваемый фильм.
  • "user_id": уникальный идентификатор пользователя, составившего рейтинг
  • "user_rating": оценка рейтинга по пятизвездочной шкале
  • «отметка времени»: отметка времени рейтингов, представленная в секундах с полуночи по всемирному координированному времени (UTC) 1 января 1970 г.

Версии «100k-рейтинги» и «1m-рейтинги» дополнительно включают следующие демографические характеристики.

  • "user_gender": пол пользователя, составившего рейтинг; истинное значение соответствует мужскому
  • «bucketized_user_age»: значения возраста пользователя, составившего рейтинг, с разбивкой по сегментам, значения и соответствующие диапазоны:
    • 1: «До 18 лет»
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: «50-55»
    • 56: «56+»
  • «user_occupation_label»: род занятий пользователя, составившего рейтинг, представленный меткой в ​​целочисленном коде; метки предварительно обработаны, чтобы быть согласованными в разных версиях
  • "user_occupation_text": род занятий пользователя, составившего рейтинг в исходной строке; разные версии могут иметь разный набор текстовых меток
  • "user_zip_code": почтовый индекс пользователя, составившего рейтинг

Кроме того, набор данных «100k-ratings» также будет иметь функцию «raw_user_age», которая представляет собой точный возраст пользователей, составивших рейтинг.

Наборы данных с суффиксом «-movies» содержат только функции «movie_id», «movie_title» и «movie_genres».

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens/25m-рейтинги (конфигурация по умолчанию)

  • Описание конфигурации : этот набор данных содержит 25 000 095 оценок для 62 423 фильмов, созданных 162 541 пользователем в период с 9 января 1995 года по 21 ноября.
  • Этот набор данных является последней стабильной версией набора данных MovieLens, созданной 21 ноября 2019 года.

Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в ползвезды. Этот набор данных не включает демографические данные.

  • Размер загрузки : 249.84 MiB

  • Размер набора данных : 3.89 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 25 000 095
  • Структура функции :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
кино_жанры Последовательность (метка класса) (Никто,) tf.int64
movie_id Тензор tf.string
название фильма Тензор tf.string
отметка времени Тензор tf.int64
ID пользователя Тензор tf.string
рейтинг пользователей Тензор tf.float32

кинообъектив/25м-фильмы

  • Описание конфигурации : этот набор данных содержит данные о 62 423 фильмах, оцененных в наборе данных 25 м.

  • Размер загрузки : 249.84 MiB

  • Размер набора данных : 5.71 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 62 423
  • Структура функции :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
кино_жанры Последовательность (метка класса) (Никто,) tf.int64
movie_id Тензор tf.string
название фильма Тензор tf.string

кинообъектив/последние-маленькие-рейтинги

  • Описание конфигурации : этот набор данных содержит 100 836 оценок для 9 742 фильмов, созданных 610 пользователями в период с 29 марта 1996 г. по 24 сентября 2018 г. Этот набор данных создан 26 сентября 2018 г. и является подмножеством полной последней версии набора данных MovieLens. . Этот набор данных изменяется и обновляется с течением времени.

Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в ползвезды. Этот набор данных не включает демографические данные.

  • Размер загрузки : 955.28 KiB

  • Размер набора данных : 15.82 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 100 836
  • Структура функции :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
кино_жанры Последовательность (метка класса) (Никто,) tf.int64
movie_id Тензор tf.string
название фильма Тензор tf.string
отметка времени Тензор tf.int64
ID пользователя Тензор tf.string
рейтинг пользователей Тензор tf.float32

кинообъектив/последние маленькие фильмы

  • Описание конфигурации : этот набор данных содержит данные о 9742 фильмах, оцененных в последнем небольшом наборе данных.

  • Размер загрузки : 955.28 KiB

  • Размер набора данных : 910.64 KiB

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 9742
  • Структура функции :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
кино_жанры Последовательность (метка класса) (Никто,) tf.int64
movie_id Тензор tf.string
название фильма Тензор tf.string

кинообъектив/100k-рейтинги

  • Описание конфигурации : этот набор данных содержит 100 000 оценок 943 пользователей для 1 682 фильмов. Этот набор данных является самой старой версией набора данных MovieLens.

Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в целую звезду. Этот набор данных содержит демографические данные пользователей в дополнение к данным о фильмах и рейтингах.

  • Размер загрузки : 4.70 MiB

  • Размер набора данных : 32.41 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 100 000
  • Структура функции :
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'raw_user_age': tf.float32,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
Bucketized_user_age Тензор tf.float32
кино_жанры Последовательность (метка класса) (Никто,) tf.int64
movie_id Тензор tf.string
название фильма Тензор tf.string
raw_user_age Тензор tf.float32
отметка времени Тензор tf.int64
user_gender Тензор tf.bool
ID пользователя Тензор tf.string
user_occupation_label Метка класса tf.int64
user_occupation_text Тензор tf.string
рейтинг пользователей Тензор tf.float32
user_zip_code Тензор tf.string

кинообъектив/100 000 фильмов

  • Описание конфигурации : этот набор данных содержит данные о 1682 фильмах, оцененных в наборе данных 100 000.

  • Размер загрузки : 4.70 MiB

  • Размер набора данных : 150.35 KiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 1682
  • Структура функции :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
кино_жанры Последовательность (метка класса) (Никто,) tf.int64
movie_id Тензор tf.string
название фильма Тензор tf.string

кинообъектив/1м-рейтинги

  • Описание конфигурации : этот набор данных содержит 1 000 209 анонимных оценок примерно 3 900 фильмов, созданных 6 040 пользователями MovieLens, присоединившимися к MovieLens в
  • Этот набор данных является самым большим набором данных, который включает демографические данные.

Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в целую звезду. В демографических данных значения возраста делятся на диапазоны, и вместо фактических значений в данных используется наименьшее значение возраста для каждого диапазона.

  • Размер загрузки : 5.64 MiB

  • Размер набора данных : 308.42 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 1 000 209
  • Структура функции :
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
Bucketized_user_age Тензор tf.float32
кино_жанры Последовательность (метка класса) (Никто,) tf.int64
movie_id Тензор tf.string
название фильма Тензор tf.string
отметка времени Тензор tf.int64
user_gender Тензор tf.bool
ID пользователя Тензор tf.string
user_occupation_label Метка класса tf.int64
user_occupation_text Тензор tf.string
рейтинг пользователей Тензор tf.float32
user_zip_code Тензор tf.string

кинообъектив/1м-фильмы

  • Описание конфигурации : этот набор данных содержит данные примерно о 3900 фильмах, оцененных в наборе данных 1 м.

  • Размер загрузки : 5.64 MiB

  • Размер набора данных : 351.12 KiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 3883
  • Структура функции :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
кино_жанры Последовательность (метка класса) (Никто,) tf.int64
movie_id Тензор tf.string
название фильма Тензор tf.string

кинообъектив/20м-рейтинги

  • Описание конфигурации : этот набор данных содержит 20 000 263 оценки для 27 278 фильмов, созданных 138 493 пользователями в период с 09 января 1995 года по 31 марта 2015 года. Этот набор данных был сгенерирован 17 октября 2016 года.

Каждый пользователь оценил не менее 20 фильмов. Рейтинги указаны с шагом в ползвезды. Этот набор данных не содержит демографических данных.

  • Размер загрузки : 189.50 MiB

  • Размер набора данных : 3.10 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'train' 20 000 263
  • Структура функции :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
кино_жанры Последовательность (метка класса) (Никто,) tf.int64
movie_id Тензор tf.string
название фильма Тензор tf.string
отметка времени Тензор tf.int64
ID пользователя Тензор tf.string
рейтинг пользователей Тензор tf.float32

кинообъектив/20м-фильмы

  • Описание конфигурации : этот набор данных содержит данные о 27 278 фильмах, оцененных в наборе данных 20 м.

  • Размер загрузки : 189.50 MiB

  • Размер набора данных : 2.55 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 27 278
  • Структура функции :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
кино_жанры Последовательность (метка класса) (Никто,) tf.int64
movie_id Тензор tf.string
название фильма Тензор tf.string