کمک به حفاظت از دیواره بزرگ مرجانی با TensorFlow در Kaggle اضافه کردن چالش

فیلم_هزارها

  • توضیحات:

این مجموعه داده شامل مجموعه ای از رتبه بندی فیلم ها از وب سایت MovieLens ، یک سرویس توصیه فیلم است. این مجموعه داده های جمع آوری شده بود و نگهداری توسط GroupLens ، یک گروه تحقیقاتی در دانشگاه مینه سوتا است. 5 نسخه شامل: "25 متر" ، "جدیدترین کوچک" ، "100 کیلوگرم" ، "1 متر" ، "20 متر" وجود دارد. در همه مجموعه داده ها ، داده ها و داده های رتبه بندی فیلم ها در "movieId" پیوست می شوند. مجموعه داده 25 میلی متری ، آخرین مجموعه داده کوچک و 20 میلیون مجموعه داده فقط شامل داده های فیلم و داده های رتبه بندی است. مجموعه داده 1m و مجموعه داده 100k علاوه بر داده های فیلم و رتبه بندی ، حاوی اطلاعات دموگرافیک نیز هستند.

  • "25 متر": این آخرین نسخه پایدار مجموعه داده MovieLens است. برای اهداف تحقیقاتی توصیه می شود.
  • "latest-small": این زیرمجموعه کوچکی از آخرین نسخه مجموعه داده MovieLens است. با گذشت زمان توسط GroupLens تغییر کرده و به روز می شود.
  • "100k": این قدیمی ترین نسخه مجموعه داده های MovieLens است. این یک مجموعه داده کوچک با داده های جمعیت شناختی است.
  • "1m": این بزرگترین مجموعه داده MovieLens است که حاوی داده های جمعیت شناختی است.
  • "20m": این یکی از پرکاربردترین مجموعه های داده MovieLens در مقالات دانشگاهی به همراه مجموعه داده 1m است.

برای هر نسخه ، کاربران می توانند فقط داده های فیلم را با افزودن پسوند "-movies" (به عنوان مثال "فیلم های 25 متر") یا داده های رتبه بندی به داده های فیلم (و داده های کاربران در مجموعه داده های 1m و 100k) با افزودن مشاهده کنند. پسوند "-ratings" (به عنوان مثال "رتبه بندی 25 متر").

ویژگی های زیر در همه نسخه ها با پسوند "-ratings" گنجانده شده است.

  • "movie_id": شناسه منحصر به فرد فیلم درجه بندی شده
  • "عنوان فیلم": عنوان فیلم درجه بندی شده با سال اکران در داخل پرانتز
  • "ژانرهای فیلم": دنباله ای از ژانرهایی که فیلم درجه بندی شده به آنها تعلق دارد
  • "user_id": شناسه منحصر به فرد کاربری که رتبه بندی کرده است
  • "user_rating": امتیاز رتبه بندی در مقیاس پنج ستاره
  • "timestamp": زمان بندی رتبه بندی ها ، نشان داده شده در ثانیه از نیمه شب زمان هماهنگ جهانی (UTC) 1 ژانویه 1970

نسخه های "100k-ratings" و "1m-ratings" علاوه بر این شامل ویژگی های جمعیت شناختی زیر است.

  • "user_gender": جنسیت کاربری که رتبه بندی کرده است. مقدار واقعی مربوط به نر است
  • "bucketized_user_age": مقادیر سن تعیین شده کاربر که رتبه بندی کرده است ، مقادیر و محدوده مربوطه عبارتند از:
    • 1: "زیر 18 سال"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "user_occupation_label": شغل کاربری است که رتبه بندی را با یک برچسب رمزگذاری شده نشان می دهد. برچسب ها از پیش پردازش شده اند تا در نسخه های مختلف سازگار باشند
  • "user_occupation_text": شغل کاربری است که در رشته اصلی رتبه بندی کرده است. نسخه های مختلف می توانند مجموعه متفاوتی از برچسب های متن خام داشته باشند
  • "user_zip_code": کد پستی کاربری که رتبه بندی کرده است

علاوه بر این ، مجموعه داده "100k-ratings" همچنین دارای ویژگی "raw_user_age" است که سن دقیق کاربرانی است که رتبه بندی کرده اند

مجموعه های داده با پسوند "-movies" فقط دارای ویژگی "movie_id" ، "title_title" و "gen__ film" هستند.

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movie_lens/25m-ratings (پیکربندی پیش فرض)

  • توضیحات پیکربندی: این مجموعه داده شامل 25،000،095 رتبه بندی در سراسر 62،423 فیلم، بین ماه های ژانویه 09، 1995 و نوامبر 21 ایجاد شده توسط کاربران 162541،
  • این مجموعه داده آخرین نسخه پایدار مجموعه داده MovieLens است که در 21 نوامبر 2019 ایجاد شده است.

هر کاربر حداقل 20 فیلم را رتبه بندی کرده است. رتبه بندی ها به صورت نیم ستاره افزایش می یابد. این مجموعه داده شامل اطلاعات جمعیت شناختی نیست.

  • حجم دانلود: 249.84 MiB

  • اندازه مجموعه داده: 3.89 GiB

  • خودکار ذخیره سازی ( اسناد ): بدون

  • انشعابات:

شکاف مثال ها
'train' 25،000،095
  • ویژگی ها:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movie_lens/فیلم های 25 متری

  • توضیحات پیکربندی: این مجموعه داده شامل داده ها از 62423 فیلم در مجموعه داده 25M نامی.

  • حجم دانلود: 249.84 MiB

  • مجموعه داده اندازه: 5.71 MiB

  • خودکار ذخیره سازی ( اسناد ): بله

  • انشعابات:

شکاف مثال ها
'train' 62،423
  • ویژگی ها:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movie_lens/آخرین-رتبه های کوچک

  • توضیحات پیکربندی: این مجموعه داده شامل 100836 رتبه بندی در سراسر 9742 فیلم، بین ماه های مارس 29، 1996 و 24 سپتامبر 2018. ایجاد شده توسط کاربران 610 این مجموعه داده است در تاریخ 26 سپتامبر 2018 تولید شده و یک زیر مجموعه از آخرین نسخه کامل از مجموعه داده MovieLens است به این مجموعه داده در طول زمان تغییر کرده و به روز می شود.

هر کاربر حداقل 20 فیلم را رتبه بندی کرده است. رتبه بندی ها به صورت نیم ستاره افزایش می یابد. این مجموعه داده شامل اطلاعات جمعیت شناختی نیست.

  • حجم دانلود: 955.28 KiB

  • مجموعه داده اندازه: 15.82 MiB

  • خودکار ذخیره سازی ( اسناد ): بله

  • انشعابات:

شکاف مثال ها
'train' 100،836
  • ویژگی ها:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movie_lens/جدیدترین-فیلمهای کوچک

  • توضیحات پیکربندی: این مجموعه داده شامل داده ها از 9742 فیلم در مجموعه داده شدن کوچک امتیاز.

  • حجم دانلود: 955.28 KiB

  • مجموعه داده اندازه: 910.64 KiB

  • خودکار ذخیره سازی ( اسناد ): بله

  • انشعابات:

شکاف مثال ها
'train' 9،742
  • ویژگی ها:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movie_lens/100k-ratings

  • توضیحات پیکربندی: این مجموعه داده شامل 100000 رأی از کاربران 943 در 1682 فیلم. این مجموعه داده قدیمی ترین نسخه مجموعه داده MovieLens است.

هر کاربر حداقل 20 فیلم را رتبه بندی کرده است. رتبه بندی ها به صورت ستاره کامل افزایش می یابد. این مجموعه داده شامل داده های جمعیت شناختی کاربران علاوه بر داده های فیلم ها و رتبه بندی ها است.

  • حجم دانلود: 4.70 MiB

  • مجموعه داده اندازه: 32.41 MiB

  • خودکار ذخیره سازی ( اسناد ): بله

  • انشعابات:

شکاف مثال ها
'train' 100000
  • ویژگی ها:
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'raw_user_age': tf.float32,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

movie_lens/100k-movies

  • توضیحات پیکربندی: این مجموعه داده شامل داده ها از 1682 فیلم در مجموعه داده 100K نامی.

  • حجم دانلود: 4.70 MiB

  • مجموعه داده اندازه: 150.35 KiB

  • خودکار ذخیره سازی ( اسناد ): بله

  • انشعابات:

شکاف مثال ها
'train' 1،682
  • ویژگی ها:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movie_lens/رتبه بندی 1 میلیون

  • توضیحات پیکربندی: این مجموعه داده شامل 1،000،209 رتبه های ناشناس از حدود 3900 فیلم ساخته شده توسط 6040 MovieLens کاربرانی که MovieLens در پیوست
  • این مجموعه داده بزرگترین مجموعه داده است که شامل داده های جمعیت شناختی است.

هر کاربر حداقل 20 فیلم را رتبه بندی کرده است. رتبه بندی ها به صورت ستاره کامل افزایش می یابد. در داده های جمعیت شناختی ، مقادیر سن به محدوده تقسیم می شوند و کمترین مقدار سنی برای هر محدوده به جای مقادیر واقعی در داده ها استفاده می شود.

  • حجم دانلود: 5.64 MiB

  • مجموعه داده اندازه: 308.42 MiB

  • خودکار ذخیره سازی ( اسناد ): بدون

  • انشعابات:

شکاف مثال ها
'train' 1،000،209
  • ویژگی ها:
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

movie_lens/1m-movies

  • توضیحات پیکربندی: این مجموعه داده شامل داده ها از حدود 3900 فیلم در مجموعه داده 1M نامی.

  • حجم دانلود: 5.64 MiB

  • مجموعه داده اندازه: 351.12 KiB

  • خودکار ذخیره سازی ( اسناد ): بله

  • انشعابات:

شکاف مثال ها
'train' 3،883
  • ویژگی ها:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movie_lens/رتبه بندی 20 متر

  • توضیحات پیکربندی: این مجموعه داده شامل 20،000،263 رتبه بندی در سراسر 27،278 فیلم، بین ماه های ژانویه 09، 1995 و 31 مارس 2015. ایجاد شده توسط کاربران 138493 این مجموعه داده در 17 اکتبر 2016 ایجاد شد.

هر کاربر حداقل 20 فیلم را رتبه بندی کرده است. رتبه بندی ها به صورت نیم ستاره افزایش می یابد. این مجموعه داده شامل اطلاعات جمعیت شناختی نیست.

  • حجم دانلود: 189.50 MiB

  • اندازه مجموعه داده: 3.10 GiB

  • خودکار ذخیره سازی ( اسناد ): بدون

  • انشعابات:

شکاف مثال ها
'train' 20،000،263
  • ویژگی ها:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movie_lens/فیلم های 20 متری

  • توضیحات پیکربندی: این مجموعه داده شامل داده ها از 27278 فیلم در مجموعه داده 20M نامی

  • حجم دانلود: 189.50 MiB

  • مجموعه داده اندازه: 2.55 MiB

  • خودکار ذخیره سازی ( اسناد ): بله

  • انشعابات:

شکاف مثال ها
'train' 27،278
  • ویژگی ها:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})