فیلم لنز

  • توضیحات :

این مجموعه داده شامل مجموعه ای از رتبه بندی فیلم ها از وب سایت MovieLens، یک سرویس توصیه فیلم است. این مجموعه داده توسط GroupLens ، یک گروه تحقیقاتی در دانشگاه مینه‌سوتا جمع‌آوری و نگهداری شد. 5 نسخه شامل "25 متر"، "آخرین کوچک"، "100k"، "1m"، "20m" وجود دارد. در همه مجموعه‌های داده، داده‌های فیلم و داده‌های رتبه‌بندی در "movieId" به هم متصل می‌شوند. مجموعه داده 25 میلیونی، آخرین مجموعه داده کوچک و مجموعه داده 20 میلیونی فقط حاوی داده های فیلم و داده های رتبه بندی هستند. مجموعه داده 1 میلیونی و مجموعه داده 100 هزار نفری علاوه بر داده‌های فیلم و رتبه‌بندی، حاوی داده‌های جمعیتی هستند.

  • "25m": این آخرین نسخه پایدار مجموعه داده MovieLens است. برای اهداف تحقیقاتی توصیه می شود.
  • "latest-small": این زیرمجموعه کوچکی از آخرین نسخه مجموعه داده MovieLens است. با گذشت زمان توسط GroupLens تغییر و به روز می شود.
  • "100k": این قدیمی ترین نسخه مجموعه داده های MovieLens است. این یک مجموعه داده کوچک با داده های جمعیتی است.
  • "1m": این بزرگترین مجموعه داده MovieLens است که حاوی داده های جمعیتی است.
  • "20m": این یکی از پرکاربردترین مجموعه داده های MovieLens در مقالات دانشگاهی به همراه مجموعه داده 1 متری است.

برای هر نسخه، کاربران می‌توانند تنها داده‌های فیلم‌ها را با افزودن پسوند «-movies» (مثلاً «25m-movies») یا داده‌های رتبه‌بندی همراه با داده‌های فیلم (و داده‌های کاربران در مجموعه‌های داده‌های 1m و 100k) مشاهده کنند. پسوند "-ratings" (به عنوان مثال "25m-ratings").

ویژگی های زیر در تمام نسخه ها با پسوند "-ratings" گنجانده شده است.

  • "movie_id": یک شناسه منحصربه‌فرد برای فیلم رتبه‌بندی شده
  • "فیلم_عنوان": عنوان فیلم رتبه بندی شده با سال اکران داخل پرانتز
  • "ژانر_فیلم": دنباله ای از ژانرهایی که فیلم رتبه بندی شده به آن تعلق دارد
  • "user_id": شناسه منحصر به فرد کاربری که رتبه بندی را انجام داده است
  • "user_rating": امتیاز رتبه بندی در مقیاس پنج ستاره
  • «مهر زمانی»: مُهر زمانی رتبه‌بندی‌ها که از نیمه‌شب ساعت جهانی هماهنگ شده (UTC) ۱ ژانویه ۱۹۷۰ بر حسب ثانیه نمایش داده می‌شود.

علاوه بر این، نسخه‌های «100k-ratings» و «1m-ratings» ویژگی‌های جمعیتی زیر را نیز شامل می‌شوند.

  • "user_gender": جنسیت کاربری که رتبه بندی را انجام داده است. یک مقدار واقعی مربوط به مرد است
  • "bucketized_user_age": مقادیر سنی کاربر که رتبه بندی را ایجاد کرده است، مقادیر و محدوده های مربوطه عبارتند از:
    • 1: "زیر 18"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "user_occupation_label": شغل کاربری که رتبه بندی را با یک برچسب رمزگذاری شده با عدد صحیح ارائه کرده است. برچسب ها از قبل پردازش می شوند تا در نسخه های مختلف سازگار باشند
  • "user_occupation_text": شغل کاربری که رتبه بندی را در رشته اصلی ایجاد کرده است. نسخه های مختلف می توانند مجموعه متفاوتی از برچسب های متن خام داشته باشند
  • "user_zip_code": کد پستی کاربری که رتبه بندی را انجام داده است

علاوه بر این، مجموعه داده "100k-ratings" دارای ویژگی "raw_user_age" نیز خواهد بود که سن دقیق کاربرانی است که رتبه بندی را انجام داده اند.

مجموعه های داده با پسوند "-movies" فقط دارای ویژگی های "movie_id"، "movie_title" و "movie_genres" هستند.

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens/25m-ratings (پیکربندی پیش فرض)

  • توضیحات پیکربندی : این مجموعه داده شامل 25,000,095 رتبه بندی در بین 62,423 فیلم است که توسط 162,541 کاربر بین 9 ژانویه 1995 تا 21 نوامبر ایجاد شده است.
  • این مجموعه داده آخرین نسخه پایدار مجموعه داده MovieLens است که در 21 نوامبر 2019 تولید شده است.

هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبه بندی ها با افزایش نیم ستاره است. این مجموعه داده شامل اطلاعات جمعیت شناختی نیست.

  • حجم دانلود : 249.84 MiB

  • حجم مجموعه داده : 3.89 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 25,000,095
  • ساختار ویژگی :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
ژانرهای_فیلم دنباله (ClassLabel) (هیچ یک،) int64
فیلم_id تانسور رشته
عنوان_فیلم تانسور رشته
مهر زمانی تانسور int64
شناسه کاربر تانسور رشته
امتیاز_کاربر تانسور float32

movielens/25m-movies

  • توضیحات پیکربندی : این مجموعه داده حاوی اطلاعات 62423 فیلم است که در مجموعه داده 25 متری رتبه بندی شده اند.

  • حجم دانلود : 249.84 MiB

  • حجم مجموعه داده : 5.71 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 62,423
  • ساختار ویژگی :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
ژانرهای_فیلم دنباله (ClassLabel) (هیچ یک،) int64
فیلم_id تانسور رشته
عنوان_فیلم تانسور رشته

movielens/جدیدترین رتبه‌بندی‌های کوچک

  • توضیحات پیکربندی : این مجموعه داده شامل 100,836 رتبه بندی در بین 9,742 فیلم است که توسط 610 کاربر بین 29 مارس 1996 تا 24 سپتامبر 2018 ایجاد شده است. این مجموعه داده در 26 سپتامبر 2018 ایجاد شده است و زیر مجموعه ای از آخرین نسخه کامل مجموعه داده MovieLens است. . این مجموعه داده در طول زمان تغییر و به روز می شود.

هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبه بندی ها با افزایش نیم ستاره است. این مجموعه داده شامل اطلاعات جمعیت شناختی نیست.

  • حجم دانلود : 955.28 KiB

  • حجم مجموعه داده : 15.82 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 100,836
  • ساختار ویژگی :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
ژانرهای_فیلم دنباله (ClassLabel) (هیچ یک،) int64
فیلم_id تانسور رشته
عنوان_فیلم تانسور رشته
مهر زمانی تانسور int64
شناسه کاربر تانسور رشته
امتیاز_کاربر تانسور float32

movielens/جدیدترین-فیلم های کوچک

  • توضیحات پیکربندی : این مجموعه داده حاوی داده‌های 9742 فیلم است که در آخرین مجموعه داده کوچک رتبه‌بندی شده‌اند.

  • حجم دانلود : 955.28 KiB

  • اندازه مجموعه داده : 910.64 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 9742
  • ساختار ویژگی :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
ژانرهای_فیلم دنباله (ClassLabel) (هیچ یک،) int64
فیلم_id تانسور رشته
عنوان_فیلم تانسور رشته

movielens/100k-rats

  • توضیحات پیکربندی : این مجموعه داده شامل 100000 رتبه بندی از 943 کاربر در 1682 فیلم است. این مجموعه داده قدیمی ترین نسخه مجموعه داده MovieLens است.

هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبه‌بندی‌ها با افزایش ستاره کامل است. این مجموعه داده شامل داده های جمعیت شناختی کاربران علاوه بر داده های مربوط به فیلم ها و رتبه بندی است.

  • حجم دانلود : 4.70 MiB

  • حجم مجموعه داده : 32.41 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 100000
  • ساختار ویژگی :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
bucketized_user_age تانسور float32
ژانرهای_فیلم دنباله (ClassLabel) (هیچ یک،) int64
فیلم_id تانسور رشته
عنوان_فیلم تانسور رشته
raw_user_age تانسور float32
مهر زمانی تانسور int64
user_gender تانسور بوول
شناسه کاربر تانسور رشته
user_occupation_label ClassLabel int64
user_occupation_text تانسور رشته
امتیاز_کاربر تانسور float32
user_zip_code تانسور رشته

movielens/100k-movies

  • توضیحات پیکربندی : این مجموعه داده شامل داده‌های 1682 فیلم است که در مجموعه داده‌های 100k رتبه‌بندی شده‌اند.

  • حجم دانلود : 4.70 MiB

  • حجم مجموعه داده : 150.35 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 1682
  • ساختار ویژگی :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
ژانرهای_فیلم دنباله (ClassLabel) (هیچ یک،) int64
فیلم_id تانسور رشته
عنوان_فیلم تانسور رشته

movielens/1m-rats

  • توضیحات پیکربندی : این مجموعه داده شامل 1000209 رتبه ناشناس از تقریباً 3900 فیلم ساخته شده توسط 6040 کاربر MovieLens است که به MovieLens پیوسته اند.
  • این مجموعه داده بزرگترین مجموعه داده ای است که شامل داده های جمعیتی است.

هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبه‌بندی‌ها با افزایش ستاره کامل است. در داده‌های جمعیتی، مقادیر سنی به محدوده‌ها تقسیم می‌شوند و کمترین مقدار سن برای هر محدوده به جای مقادیر واقعی در داده‌ها استفاده می‌شود.

  • حجم دانلود : 5.64 MiB

  • حجم مجموعه داده : 308.42 MiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 1,000,209
  • ساختار ویژگی :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
bucketized_user_age تانسور float32
ژانرهای_فیلم دنباله (ClassLabel) (هیچ یک،) int64
فیلم_id تانسور رشته
عنوان_فیلم تانسور رشته
مهر زمانی تانسور int64
user_gender تانسور بوول
شناسه کاربر تانسور رشته
user_occupation_label ClassLabel int64
user_occupation_text تانسور رشته
امتیاز_کاربر تانسور float32
user_zip_code تانسور رشته

movielens/1m-movies

  • توضیحات پیکربندی : این مجموعه داده حاوی داده های تقریباً 3900 فیلم است که در مجموعه داده 1 متری رتبه بندی شده اند.

  • حجم دانلود : 5.64 MiB

  • حجم مجموعه داده : 351.12 KiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 3,883
  • ساختار ویژگی :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
ژانرهای_فیلم دنباله (ClassLabel) (هیچ یک،) int64
فیلم_id تانسور رشته
عنوان_فیلم تانسور رشته

فیلم لنز/20 متر امتیاز

  • توضیحات پیکربندی : این مجموعه داده شامل 20,000,263 رتبه بندی در بین 27,278 فیلم است که توسط 138,493 کاربر بین 9 ژانویه 1995 تا 31 مارس 2015 ایجاد شده است. این مجموعه داده در 17 اکتبر 2016 ایجاد شده است.

هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبه‌بندی‌ها با افزایش نیم‌ستاره است. این مجموعه داده حاوی اطلاعات جمعیتی نیست.

  • حجم دانلود : 189.50 MiB

  • حجم مجموعه داده : 3.10 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 20000263
  • ساختار ویژگی :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
ژانرهای_فیلم دنباله (ClassLabel) (هیچ یک،) int64
فیلم_id تانسور رشته
عنوان_فیلم تانسور رشته
مهر زمانی تانسور int64
شناسه کاربر تانسور رشته
امتیاز_کاربر تانسور float32

movielens/20m-movies

  • توضیحات پیکربندی : این مجموعه داده حاوی داده های 27278 فیلم است که در مجموعه داده 20 متری رتبه بندی شده اند.

  • حجم دانلود : 189.50 MiB

  • حجم مجموعه داده : 2.55 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 27278
  • ساختار ویژگی :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
ژانرهای_فیلم دنباله (ClassLabel) (هیچ یک،) int64
فیلم_id تانسور رشته
عنوان_فیلم تانسور رشته