movielens

  • 説明

このデータセットには、映画推薦サービスであるMovieLensWebサイトからの一連の映画評価が含まれています。このデータセットを収集し、によって維持されたGroupLens 、ミネソタ大学の研究グループ。 「25m」、「latest-small」、「100k」、「1m」、「20m」の5つのバージョンが含まれています。すべてのデータセットで、映画データと評価データは「movieId」で結合されます。 25mデータセット、latest-smallデータセット、および20mデータセットには、映画データと評価データのみが含まれています。 1mデータセットと100kデータセットには、映画と評価データに加えて人口統計データが含まれています。

  • 「25m」:これは、MovieLensデータセットの最新の安定バージョンです。研究目的でお勧めします。
  • 「latest-small」:これは、MovieLensデータセットの最新バージョンの小さなサブセットです。これは、GroupLensによって時間の経過とともに変更および更新されます。
  • 「100k」:これはMovieLensデータセットの最も古いバージョンです。これは、人口統計データを含む小さなデータセットです。
  • 「1m」:これは、人口統計データを含む最大のMovieLensデータセットです。
  • 「20m」:これは、1mデータセットとともに、学術論文で最も使用されているMovieLensデータセットの1つです。

バージョンごとに、ユーザーは「-movies」サフィックス(「25m-movies」など)を追加して映画データのみを表示するか、映画データ(および1mおよび100kデータセットのユーザーデータ)に結合された評価データを追加して表示できます。 「-ratings」サフィックス(例:「25m-ratings」)。

以下の機能は、「-ratings」という接尾辞が付いたすべてのバージョンに含まれています。

  • 「movie_id」:評価された映画の一意の識別子
  • 「movie_title」:リリース年が括弧で囲まれた評価済みの映画のタイトル
  • 「movie_genres」:評価された映画が属する一連のジャンル
  • 「user_id」:評価を行ったユーザーの一意の識別子
  • 「user_rating」:5つ星スケールでの評価のスコア
  • 「タイムスタンプ」:1970年1月1日の協定世界時(UTC)の深夜からの秒数で表される評価のタイムスタンプ

さらに、「100kレーティング」バージョンと「1mレーティング」バージョンには、次の人口統計機能が含まれています。

  • "user_gender":評価を行ったユーザーの性別。真の値は男性に対応します
  • "bucketized_user_age":評価を行ったユーザーのバケット化された年齢値、値、および対応する範囲は次のとおりです。
    • 1:「18歳未満」
    • 18:「18-24」
    • 25:「25-34」
    • 35:「35-44」
    • 45:「45-49」
    • 50:「50-55」
    • 56:「56+」
  • 「user_occupation_label」:整数でエンコードされたラベルで表される評価を行ったユーザーの職業。ラベルは、異なるバージョン間で一貫性があるように前処理されます
  • "user_occupation_text":元の文字列で評価を行ったユーザーの職業。バージョンが異なれば、生のテキストラベルのセットも異なります。
  • 「user_zip_code」:評価を行ったユーザーの郵便番号

さらに、「100k-ratings」データセットには、評価を行ったユーザーの正確な年齢である「raw_user_age」機能も含まれます。

「-movies」サフィックスが付いたデータセットには、「movie_id」、「movie_title」、および「movie_genres」機能のみが含まれます。

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens / 25m-ratings(デフォルト設定)

  • コンフィグの説明:このデータセットは、1995年1月9日と11月21日の間に162541人のユーザーが作成した62423本の映画、全体で25000095の評価が含まれています、
  • このデータセットは、2019年11月21日に生成されたMovieLensデータセットの最新の安定バージョンです。

各ユーザーは少なくとも20本の映画を評価しています。評価は星の半分の増分です。このデータセットには人口統計データは含まれていません。

  • ダウンロードサイズ249.84 MiB

  • データセットサイズ3.89 GiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 25,000,095
  • 特長
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movielens / 25m-映画

  • コンフィグの説明:このデータセットは25メートルデータセットに定格62423本の映画のデータが含まれています。

  • ダウンロードサイズ249.84 MiB

  • データセットサイズ5.71 MiB

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'train' 62,423
  • 特長
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens / latest-small-ratings

  • コンフィグの説明:このデータセットは、このデータセットは、2018年9月26日に発生した1996年3月29日および9月24日、2018年の間610人のユーザが作成した9742本の映画、全体で100836の評価が含まれており、MovieLensデータセットの完全な最新バージョンのサブセットであります。このデータセットは、時間の経過とともに変更および更新されます。

各ユーザーは少なくとも20本の映画を評価しています。評価は星の半分の増分です。このデータセットには人口統計データは含まれていません。

  • ダウンロードサイズ955.28 KiB

  • データセットサイズ15.82 MiB

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'train' 100,836
  • 特長
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movielens / latest-small-movies

  • コンフィグの説明:このデータセットは、最新の-小さなデータセットで定格9742本の映画のデータが含まれています。

  • ダウンロードサイズ955.28 KiB

  • データセットのサイズ910.64 KiB

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'train' 9,742
  • 特長
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens / 100k-評価

  • コンフィグの説明:このデータセットは、1682本の映画の943人のユーザ〜100,000評価が含まれています。このデータセットは、MovieLensデータセットの最も古いバージョンです。

各ユーザーは少なくとも20本の映画を評価しています。評価は星全体の増分です。このデータセットには、映画や評価に関するデータに加えて、ユーザーの人口統計データが含まれています。

  • ダウンロードサイズ4.70 MiB

  • データセットサイズ32.41 MiB

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'train' 100,000
  • 特長
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'raw_user_age': tf.float32,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

movielens / 100k-映画

  • コンフィグの説明:このデータセットは100Kデータセットに定格1682本の映画のデータが含まれています。

  • ダウンロードサイズ4.70 MiB

  • データセットのサイズ150.35 KiB

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'train' 1,682
  • 特長
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens / 1m-評価

  • コンフィグの説明:このデータセットは、中MovieLensに入社6040人のMovieLensユーザーによって作られた約3,900の映画の1000209の匿名の評価が含まれています
  • このデータセットは、人口統計データを含む最大のデータセットです。

各ユーザーは少なくとも20本の映画を評価しています。評価は星全体の増分です。人口統計データでは、年齢値は範囲に分割され、各範囲の最低年齢値が実際の値の代わりにデータで使用されます。

  • ダウンロードサイズ5.64 MiB

  • データセットのサイズ308.42 MiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 1,000,209
  • 特長
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

movielens / 1m-映画

  • コンフィグの説明:このデータセットは、1メートルデータセットで評価し、約3,900の映画のデータが含まれています。

  • ダウンロードサイズ5.64 MiB

  • データセットのサイズ351.12 KiB

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'train' 3,883
  • 特長
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens / 20m-評価

  • コンフィグの説明:このデータセットは、このデータセットは、2016年10月17日に生成された1995年1月9日と3月31日、2015年の間138493人のユーザーが作成した27278本の映画、全体で20000263の評価が含まれています。

各ユーザーは少なくとも20本の映画を評価しています。評価は星の半分の増分です。このデータセットには人口統計データは含まれていません。

  • ダウンロードサイズ189.50 MiB

  • データセットサイズ3.10 GiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'train' 20,000,263
  • 特長
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movielens / 20m-映画

  • コンフィグの説明:このデータセットは20メートルデータセットに定格27278本の映画のデータが含まれています

  • ダウンロードサイズ189.50 MiB

  • データセットサイズ2.55 MiB

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'train' 27,278
  • 特長
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})