امروز برای رویداد محلی TensorFlow خود در همه جا پاسخ دهید!
این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

فیلم های سینمایی

  • توضیحات :

این مجموعه داده شامل مجموعه ای از رتبه بندی فیلم ها از وب سایت MovieLens ، یک سرویس توصیه فیلم است. این مجموعه داده توسط GroupLens ، یک گروه تحقیقاتی در دانشگاه مینه سوتا ، جمع آوری و نگهداری شد. 5 نسخه گنجانده شده وجود دارد: "25m" ، "latest-small" ، "100k" ، "1m" ، "20m". در تمام مجموعه های داده ، داده ها و رتبه بندی فیلم ها در "movieId" پیوست می شوند. مجموعه داده 25 میلی متری ، مجموعه داده جدیدترین کوچک و مجموعه داده 20 میلی متری فقط حاوی داده های فیلم و داده های رتبه بندی است. مجموعه داده 1m و مجموعه داده 100k علاوه بر داده های فیلم و رتبه بندی ، حاوی داده های جمعیتی نیز هستند.

  • "25m": این آخرین نسخه پایدار مجموعه داده MovieLens است. این برای اهداف تحقیقاتی توصیه می شود.
  • "latest-small": این زیر مجموعه کوچکی از آخرین نسخه از مجموعه داده MovieLens است. با گذشت زمان توسط GroupLens تغییر و به روز می شود.
  • "100k": این قدیمی ترین نسخه از مجموعه داده های MovieLens است. این یک مجموعه داده کوچک با اطلاعات جمعیتی است.
  • "1m": این بزرگترین مجموعه داده MovieLens است که شامل داده های جمعیتی است.
  • "20m": این یکی از پرکاربردترین مجموعه های داده MovieLens در مقالات دانشگاهی به همراه مجموعه داده 1m است.

برای هر نسخه ، کاربران می توانند با افزودن پسوند "-movies" (به عنوان مثال "فیلم های 25 میلی متری") یا داده های رتبه بندی که با داده های فیلم (و داده های کاربران در مجموعه داده های 1m و 100k) پیوست می شوند ، فقط داده های فیلم ها را مشاهده کنند. پسوند "-ratings" (به عنوان مثال "25m-ratings").

ویژگی های زیر در همه نسخه ها با پسوند "-ratings" گنجانده شده است.

  • "movie_id": شناسه منحصر به فرد فیلم دارای امتیاز
  • "movie_title": عنوان فیلم دارای امتیاز با سال اکران در پرانتز
  • "ژانرهای فیلم": دنباله ای از ژانرهایی که فیلم دارای رتبه بندی به آن تعلق دارد
  • "user_id": شناسه منحصر به فرد کاربری که رتبه بندی را انجام داده است
  • "user_rating": نمره رتبه بندی در مقیاس پنج ستاره
  • "timestamp": زمان بندی رتبه بندی است که از نیمه شب ساعت جهانی هماهنگ (UTC) از 1 ژانویه 1970 در چند ثانیه نشان داده می شود

علاوه بر این ، نسخه های "100k-ratings" و "1m-ratings" دارای ویژگی های جمعیتی زیر هستند.

  • "user_gender": جنسیت کاربری که رتبه بندی کرده است. یک مقدار واقعی مربوط به مرد است
  • "bucketized_user_age": مقادیر سن باکتیزه شده کاربری که رتبه بندی کرده است ، مقادیر و دامنه های مربوطه عبارتند از:
    • 1: "زیر 18 سال"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "user_occupation_label": شغل کاربری که رتبه بندی را با برچسب کد شده با عدد صحیح نشان داده است. برچسب ها پیش پردازش می شوند تا در نسخه های مختلف سازگار باشند
  • "user_occupation_text": شغل کاربری که رتبه بندی را در رشته اصلی انجام داده است. نسخه های مختلف می توانند مجموعه ای متفاوت از برچسب های متن خام داشته باشند
  • "user_zip_code": کد پستی کاربری که رتبه بندی را انجام داده است

علاوه بر این ، مجموعه داده "100k-ratings" همچنین دارای ویژگی "raw_user_age" می باشد که سن دقیقاً کاربرانی است که رتبه بندی کرده اند

مجموعه های داده با پسوند "-movies" فقط شامل ویژگی های "film_id" ، "film_title" و "film_genres" هستند.

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens / 25m-ratings (پیکربندی پیش فرض)

  • شرح پیکربندی : این مجموعه داده شامل 25،000،095 رتبه بندی در 62،423 فیلم است که توسط 162،541 کاربر بین 09 ژانویه 1995 و 21 نوامبر ایجاد شده است ،
  • این مجموعه داده آخرین نسخه پایدار مجموعه داده MovieLens است که در 21 نوامبر 2019 تولید شده است.

هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبه بندی ها به صورت نیم ستاره افزایش می یابد. این مجموعه داده شامل اطلاعات جمعیتی نیست.

  • حجم دانلود : 249.84 MiB

  • اندازه مجموعه داده : 3.89 GiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'train' 25،000،095
  • ویژگی ها :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

فیلم های سینمایی / فیلم های 25 متری

  • شرح پیکربندی : این مجموعه داده حاوی داده های 62،423 فیلم است که در مجموعه داده 25 میلیونی رتبه بندی شده اند.

  • حجم دانلود : 249.84 MiB

  • اندازه مجموعه داده : 5.71 MiB

  • ذخیره خودکار ( مستندات ): بله

  • تقسیم :

شکاف مثال ها
'train' 62،423
  • ویژگی ها :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens / آخرین-رتبه بندی های کوچک

  • توضیحات پیکربندی : این مجموعه داده شامل 100،836 رتبه بندی در 9،742 فیلم است که توسط 610 کاربر بین 29 مارس 1996 و 24 سپتامبر 2018 ایجاد شده است. این مجموعه داده در تاریخ 26 سپتامبر 2018 تولید شده و زیرمجموعه ای از آخرین نسخه کامل مجموعه داده MovieLens است . این مجموعه داده با گذشت زمان تغییر کرده و به روز می شود.

هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبه بندی ها به صورت نیم ستاره افزایش می یابد. این مجموعه داده شامل اطلاعات جمعیتی نیست.

  • اندازه 955.28 KiB : 955.28 KiB

  • اندازه مجموعه داده : 15.82 MiB

  • ذخیره خودکار ( مستندات ): بله

  • تقسیم :

شکاف مثال ها
'train' 100836
  • ویژگی ها :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movielens / جدیدترین-فیلمهای کوچک

  • شرح پیکربندی : این مجموعه داده حاوی داده های 9،742 فیلم است که در آخرین مجموعه داده کوچک - رتبه بندی شده اند.

  • اندازه 955.28 KiB : 955.28 KiB

  • اندازه مجموعه داده : 910.64 KiB

  • ذخیره خودکار ( مستندات ): بله

  • تقسیم :

شکاف مثال ها
'train' 9،742
  • ویژگی ها :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens / 100k رتبه بندی

  • شرح پیکربندی : این مجموعه داده شامل 100000 رتبه بندی از 943 کاربر در 1،682 فیلم است. این مجموعه داده قدیمی ترین نسخه مجموعه داده MovieLens است.

هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبه بندی ها به صورت کل ستاره در نظر گرفته شده اند. این مجموعه داده علاوه بر داده های مربوط به فیلم ها و رتبه بندی ها ، شامل اطلاعات جمعیتی کاربران نیز می باشد.

  • اندازه بارگیری : 4.70 MiB

  • اندازه مجموعه داده : 32.41 MiB

  • ذخیره خودکار ( مستندات ): بله

  • تقسیم :

شکاف مثال ها
'train' 100000
  • ویژگی ها :
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'raw_user_age': tf.float32,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

فیلم های سینمایی / فیلم های 100k

  • شرح پیکربندی : این مجموعه داده حاوی داده های 1،682 فیلم است که در مجموعه داده 100k رتبه بندی شده اند.

  • اندازه بارگیری : 4.70 MiB

  • اندازه مجموعه داده : 150.35 KiB

  • ذخیره خودکار ( مستندات ): بله

  • تقسیم :

شکاف مثال ها
'train' 1،682
  • ویژگی ها :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens / 1 میلیون رتبه بندی

  • توضیحات پیکربندی : این مجموعه داده شامل 1،000،209 رتبه بندی ناشناس از تقریباً 3900 فیلم ساخته شده توسط 6،040 کاربر MovieLens است که به MovieLens پیوستند
  • این مجموعه داده بزرگترین مجموعه داده ای است که شامل داده های جمعیتی است.

هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبه بندی ها به صورت کل ستاره در نظر گرفته شده اند. در داده های دموگرافیک ، مقادیر سنی به محدوده تقسیم می شوند و کمترین مقدار سنی برای هر دامنه به جای مقادیر واقعی در داده ها به کار می رود.

  • حجم بارگیری : 5.64 MiB

  • اندازه مجموعه داده : 308.42 MiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'train' 1،000،209
  • ویژگی ها :
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

فیلم های سینمایی / فیلم های 1 میلی متری

  • شرح پیکربندی : این مجموعه داده شامل داده های تقریباً 3900 فیلم دارای رتبه بندی در مجموعه داده 1 میلیونی است.

  • حجم بارگیری : 5.64 MiB

  • اندازه مجموعه داده : 351.12 KiB

  • ذخیره خودکار ( مستندات ): بله

  • تقسیم :

شکاف مثال ها
'train' 3،883
  • ویژگی ها :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens / 20 میلیون رتبه بندی

  • شرح پیکربندی : این مجموعه داده شامل 20،000،263 رتبه بندی در 27278 فیلم است که توسط 138،493 کاربر بین 09 ژانویه 1995 و 31 مارس 2015 ایجاد شده است. این مجموعه داده در 17 اکتبر 2016 ایجاد شده است.

هر کاربر حداقل به 20 فیلم امتیاز داده است. رتبه بندی ها به صورت نیم ستاره افزایش می یابد. این مجموعه داده حاوی اطلاعات جمعیتی نیست.

  • اندازه 189.50 MiB : 189.50 MiB

  • اندازه مجموعه داده : 3.10 GiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'train' 20،000،263
  • ویژگی ها :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

فیلم های سینمایی / فیلم های 20 متری

  • توضیحات پیکربندی : این مجموعه داده حاوی داده های 27278 فیلم است که در مجموعه داده 20 میلیونی رتبه بندی شده اند

  • اندازه 189.50 MiB : 189.50 MiB

  • اندازه مجموعه داده : 2.55 MiB

  • ذخیره خودکار ( مستندات ): بله

  • تقسیم :

شکاف مثال ها
'train' 27،278
  • ویژگی ها :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})