movielens

  • תיאור :

מערך נתונים זה מכיל קבוצה של דירוגי סרטים מאתר MovieLens, שירות המלצות לסרטים. מערך נתונים זה נאסף ותוחזק על ידי GroupLens , קבוצת מחקר באוניברסיטת מינסוטה. ישנן 5 גרסאות כלולות: "25m", "האחרון-קטן", "100k", "1m", "20m". בכל מערכי הנתונים, נתוני הסרטים ונתוני הדירוג מצטרפים ב-"movieId". מערך הנתונים של 25 מ', מערך הנתונים האחרון-קטן ומערך הנתונים של 20 מ' מכילים רק נתוני סרטים ונתוני דירוג. מערך הנתונים של 1 מיליון ומערך הנתונים של 100,000 מכילים נתונים דמוגרפיים בנוסף לנתוני סרטים ודירוגים.

  • "25m": זוהי הגרסה היציבה האחרונה של מערך הנתונים של MovieLens. זה מומלץ למטרות מחקר.
  • "אחרון-קטן": זוהי תת-קבוצה קטנה של הגרסה האחרונה של מערך הנתונים של MovieLens. זה משתנה ומתעדכן עם הזמן על ידי GroupLens.
  • "100k": זוהי הגרסה הישנה ביותר של מערכי הנתונים של MovieLens. זהו מערך נתונים קטן עם נתונים דמוגרפיים.
  • "1m": זהו מערך הנתונים הגדול ביותר של MovieLens המכיל נתונים דמוגרפיים.
  • "20m": זהו אחד ממערכי הנתונים הנפוצים ביותר של MovieLens במאמרים אקדמיים יחד עם מערך הנתונים של 1m.

עבור כל גרסה, משתמשים יכולים להציג רק את נתוני הסרטים על-ידי הוספת הסיומת "-movies" (למשל "25m-movies") או את נתוני הדירוג המצורפים לנתוני הסרטים (ונתוני המשתמשים במערך הנתונים של 1m ו-100k) על-ידי הוספת הסיומת "-ratings" (למשל "25m-ratings").

התכונות שלהלן כלולות בכל הגרסאות עם הסיומת "-ratings".

  • "movie_id": מזהה ייחודי של הסרט המדורג
  • "title_movie": הכותרת של הסרט המדורג עם שנת היציאה בסוגריים
  • "movie_genres": רצף של ז'אנרים שאליהם שייך הסרט המדורג
  • "user_id": מזהה ייחודי של המשתמש שערך את הדירוג
  • "דירוג_משתמש": ציון הדירוג בסולם של חמישה כוכבים
  • "חותמת זמן": חותמת הזמן של הדירוגים, המיוצגת בשניות מאז חצות זמן אוניברסלי מתואם (UTC) של 1 בינואר 1970

גרסאות "דירוגי 100,000" ו-"דירוגי 1 מיליון" כוללים בנוסף את המאפיינים הדמוגרפיים הבאים.

  • "מגדר_משתמש": מגדר המשתמש שערך את הדירוג; ערך אמיתי מתאים לזכר
  • "bucketized_user_age": ערכי גיל של המשתמש שערך את הדירוג, הערכים והטווחים המתאימים הם:
    • 1: "מתחת לגיל 18"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "תווית_עיסוק_משתמש": עיסוקו של המשתמש שביצע את הדירוג המיוצג על ידי תווית מקודדת במספרים שלמים; התוויות מעובדות מראש כדי להיות עקביות בגרסאות שונות
  • "user_occupation_text": עיסוקו של המשתמש שערך את הדירוג במחרוזת המקורית; גרסאות שונות יכולות לכלול קבוצה שונה של תוויות טקסט גולמי
  • "user_zip_code": המיקוד של המשתמש שערך את הדירוג

בנוסף, למערך הנתונים של "100,000 דירוגים" תהיה גם תכונה "raw_user_age" שהיא הגילאים המדויקים של המשתמשים שביצעו את הדירוג

מערכי נתונים עם הסיומת "-movies" מכילים רק תכונות "movie_id", "movie_title" ו-"movie_genres".

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens/25m-ratings (תצורת ברירת מחדל)

  • תיאור תצורה : מערך נתונים זה מכיל 25,000,095 דירוגים על פני 62,423 סרטים, שנוצרו על ידי 162,541 משתמשים בין ה-9 בינואר 1995 ל-21 בנובמבר,
  • מערך הנתונים הזה הוא הגרסה היציבה האחרונה של מערך הנתונים של MovieLens, שנוצר ב-21 בנובמבר 2019.

כל משתמש דירג לפחות 20 סרטים. הדירוגים הם במרווחים של חצי כוכב. מערך נתונים זה אינו כולל נתונים דמוגרפיים.

  • גודל הורדה : 249.84 MiB

  • גודל מערך נתונים : 3.89 GiB

  • שמור אוטומטי במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'train' 25,000,095
  • מבנה תכונה :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
סרטים_ז'אנרים Sequence (ClassLabel) (אף אחד,) tf.int64
סרט_מזהה מוֹתֵחַ tf.string
שם הסרט מוֹתֵחַ tf.string
חותמת זמן מוֹתֵחַ tf.int64
תעודת זהות של המשתמש מוֹתֵחַ tf.string
דירוג משתמש מוֹתֵחַ tf.float32

movielens/25m-movies

  • תיאור תצורה : מערך נתונים זה מכיל נתונים של 62,423 סרטים המדורגים במערך הנתונים של 25 מיליון.

  • גודל הורדה : 249.84 MiB

  • גודל מערך נתונים : 5.71 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 62,423
  • מבנה תכונה :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
סרטים_ז'אנרים Sequence (ClassLabel) (אף אחד,) tf.int64
סרט_מזהה מוֹתֵחַ tf.string
שם הסרט מוֹתֵחַ tf.string

movielens/אחרונים-קטנים-דירוגים

  • תיאור תצורה : מערך נתונים זה מכיל 100,836 דירוגים על פני 9,742 סרטים, שנוצרו על ידי 610 משתמשים בין 29 במרץ 1996 ל-24 בספטמבר 2018. מערך נתונים זה נוצר ב-26 בספטמבר 2018 והוא קבוצת משנה של הגרסה האחרונה המלאה של מערך הנתונים של MovieLens . מערך נתונים זה משתנה ומתעדכן לאורך זמן.

כל משתמש דירג לפחות 20 סרטים. הדירוגים הם במרווחים של חצי כוכב. מערך נתונים זה אינו כולל נתונים דמוגרפיים.

  • גודל הורדה : 955.28 KiB

  • גודל ערכת נתונים: 15.82 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 100,836
  • מבנה תכונה :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
סרטים_ז'אנרים Sequence (ClassLabel) (אף אחד,) tf.int64
סרט_מזהה מוֹתֵחַ tf.string
שם הסרט מוֹתֵחַ tf.string
חותמת זמן מוֹתֵחַ tf.int64
תעודת זהות של המשתמש מוֹתֵחַ tf.string
דירוג משתמש מוֹתֵחַ tf.float32

movielens/אחרונים-קטנים-סרטים

  • תיאור תצורה : מערך נתונים זה מכיל נתונים של 9,742 סרטים שדורגו במערך הנתונים האחרון-קטן.

  • גודל הורדה : 955.28 KiB

  • גודל מערך נתונים : 910.64 KiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 9,742
  • מבנה תכונה :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
סרטים_ז'אנרים Sequence (ClassLabel) (אף אחד,) tf.int64
סרט_מזהה מוֹתֵחַ tf.string
שם הסרט מוֹתֵחַ tf.string

movielens/100k-דירוגים

  • תיאור תצורה : מערך נתונים זה מכיל 100,000 דירוגים מ-943 משתמשים ב-1,682 סרטים. מערך הנתונים הזה הוא הגרסה הישנה ביותר של מערך הנתונים של MovieLens.

כל משתמש דירג לפחות 20 סרטים. הדירוגים הם במרווחים של כוכבים שלמים. מערך נתונים זה מכיל נתונים דמוגרפיים של משתמשים בנוסף לנתונים על סרטים ודירוגים.

  • גודל הורדה : 4.70 MiB

  • גודל ערכת נתונים: 32.41 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 100,000
  • מבנה תכונה :
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'raw_user_age': tf.float32,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
bucketized_user_age מוֹתֵחַ tf.float32
סרטים_ז'אנרים Sequence (ClassLabel) (אף אחד,) tf.int64
סרט_מזהה מוֹתֵחַ tf.string
שם הסרט מוֹתֵחַ tf.string
גיל_משתמש_גולמי מוֹתֵחַ tf.float32
חותמת זמן מוֹתֵחַ tf.int64
מגדר_משתמש מוֹתֵחַ tf.bool
תעודת זהות של המשתמש מוֹתֵחַ tf.string
תווית_עיסוק_משתמש ClassLabel tf.int64
user_occupation_text מוֹתֵחַ tf.string
דירוג משתמש מוֹתֵחַ tf.float32
user_zip_code מוֹתֵחַ tf.string

movielens/100k-סרטים

  • תיאור תצורה : מערך נתונים זה מכיל נתונים של 1,682 סרטים שדורגו במערך הנתונים של 100,000.

  • גודל הורדה : 4.70 MiB

  • גודל מערך נתונים : 150.35 KiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,682
  • מבנה תכונה :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
סרטים_ז'אנרים Sequence (ClassLabel) (אף אחד,) tf.int64
סרט_מזהה מוֹתֵחַ tf.string
שם הסרט מוֹתֵחַ tf.string

movielens/1m-ratings

  • תיאור תצורה : מערך נתונים זה מכיל 1,000,209 דירוגים אנונימיים של כ-3,900 סרטים שנוצרו על ידי 6,040 משתמשי MovieLens שהצטרפו ל- MovieLens ב
  • מערך הנתונים הזה הוא מערך הנתונים הגדול ביותר הכולל נתונים דמוגרפיים.

כל משתמש דירג לפחות 20 סרטים. הדירוגים הם במרווחים של כוכבים שלמים. בנתונים דמוגרפיים, ערכי גיל מחולקים לטווחים וערך הגיל הנמוך ביותר עבור כל טווח משמש בנתונים במקום הערכים בפועל.

  • גודל הורדה : 5.64 MiB

  • גודל ערכת נתונים: 308.42 MiB

  • שמור אוטומטי במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'train' 1,000,209
  • מבנה תכונה :
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
bucketized_user_age מוֹתֵחַ tf.float32
סרטים_ז'אנרים Sequence (ClassLabel) (אף אחד,) tf.int64
סרט_מזהה מוֹתֵחַ tf.string
שם הסרט מוֹתֵחַ tf.string
חותמת זמן מוֹתֵחַ tf.int64
מגדר_משתמש מוֹתֵחַ tf.bool
תעודת זהות של המשתמש מוֹתֵחַ tf.string
תווית_עיסוק_משתמש ClassLabel tf.int64
user_occupation_text מוֹתֵחַ tf.string
דירוג משתמש מוֹתֵחַ tf.float32
user_zip_code מוֹתֵחַ tf.string

movielens/1m-movies

  • תיאור תצורה : מערך נתונים זה מכיל נתונים של כ-3,900 סרטים המדורגים במערך הנתונים של 1 מיליון.

  • גודל הורדה : 5.64 MiB

  • גודל מערך נתונים : 351.12 KiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 3,883
  • מבנה תכונה :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
סרטים_ז'אנרים Sequence (ClassLabel) (אף אחד,) tf.int64
סרט_מזהה מוֹתֵחַ tf.string
שם הסרט מוֹתֵחַ tf.string

דירוגי עדשת סרטים/20 מטר

  • תיאור תצורה : מערך נתונים זה מכיל 20,000,263 דירוגים על פני 27,278 סרטים, שנוצרו על ידי 138,493 משתמשים בין 09 בינואר 1995 ל-31 במרץ 2015. מערך נתונים זה נוצר ב-17 באוקטובר 2016.

כל משתמש דירג לפחות 20 סרטים. הדירוגים הם במרווחים של חצי כוכב. מערך נתונים זה אינו מכיל נתונים דמוגרפיים.

  • גודל הורדה : 189.50 MiB

  • גודל מערך נתונים : 3.10 GiB

  • שמור אוטומטי במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'train' 20,000,263
  • מבנה תכונה :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
סרטים_ז'אנרים Sequence (ClassLabel) (אף אחד,) tf.int64
סרט_מזהה מוֹתֵחַ tf.string
שם הסרט מוֹתֵחַ tf.string
חותמת זמן מוֹתֵחַ tf.int64
תעודת זהות של המשתמש מוֹתֵחַ tf.string
דירוג משתמש מוֹתֵחַ tf.float32

עדשת קולנוע/20 מ'-סרטים

  • תיאור תצורה : מערך נתונים זה מכיל נתונים של 27,278 סרטים המדורגים במערך הנתונים של 20 מיליון

  • גודל הורדה : 189.50 MiB

  • גודל מערך נתונים : 2.55 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 27,278
  • מבנה תכונה :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
סרטים_ז'אנרים Sequence (ClassLabel) (אף אחד,) tf.int64
סרט_מזהה מוֹתֵחַ tf.string
שם הסרט מוֹתֵחַ tf.string