- תיאור :
מערך נתונים זה מכיל קבוצה של דירוגי סרטים מאתר MovieLens, שירות המלצות לסרטים. מערך נתונים זה נאסף ותוחזק על ידי GroupLens , קבוצת מחקר באוניברסיטת מינסוטה. ישנן 5 גרסאות כלולות: "25m", "האחרון-קטן", "100k", "1m", "20m". בכל מערכי הנתונים, נתוני הסרטים ונתוני הדירוג מצטרפים ב-"movieId". מערך הנתונים של 25 מ', מערך הנתונים האחרון-קטן ומערך הנתונים של 20 מ' מכילים רק נתוני סרטים ונתוני דירוג. מערך הנתונים של 1 מיליון ומערך הנתונים של 100,000 מכילים נתונים דמוגרפיים בנוסף לנתוני סרטים ודירוגים.
- "25m": זוהי הגרסה היציבה האחרונה של מערך הנתונים של MovieLens. זה מומלץ למטרות מחקר.
- "אחרון-קטן": זוהי תת-קבוצה קטנה של הגרסה האחרונה של מערך הנתונים של MovieLens. הוא משתנה ומתעדכן עם הזמן על ידי GroupLens.
- "100k": זוהי הגרסה הישנה ביותר של מערכי הנתונים של MovieLens. זהו מערך נתונים קטן עם נתונים דמוגרפיים.
- "1m": זהו מערך הנתונים הגדול ביותר של MovieLens המכיל נתונים דמוגרפיים.
- "20m": זהו אחד ממערכי הנתונים הנפוצים ביותר של MovieLens במאמרים אקדמיים יחד עם מערך הנתונים של 1m.
עבור כל גרסה, משתמשים יכולים להציג רק את נתוני הסרטים על-ידי הוספת הסיומת "-movies" (למשל "25m-movies") או את נתוני הדירוג המצורפים לנתוני הסרטים (ונתוני המשתמשים במערך הנתונים של 1m ו-100k) על ידי הוספת הסיומת "-ratings" (למשל "25m-ratings").
התכונות שלהלן כלולות בכל הגרסאות עם הסיומת "-ratings".
- "movie_id": מזהה ייחודי של הסרט המדורג
- "title_movie": הכותרת של הסרט המדורג עם שנת היציאה בסוגריים
- "movie_genres": רצף של ז'אנרים שאליהם שייך הסרט המדורג
- "user_id": מזהה ייחודי של המשתמש שערך את הדירוג
- "דירוג_משתמש": ציון הדירוג בסולם של חמישה כוכבים
- "חותמת זמן": חותמת הזמן של הדירוגים, המיוצגת בשניות מאז חצות זמן אוניברסלי מתואם (UTC) של 1 בינואר 1970
גרסאות "דירוגי 100,000" ו-"דירוגי 1 מיליון" כוללים בנוסף את המאפיינים הדמוגרפיים הבאים.
- "user_gender": מגדר המשתמש שערך את הדירוג; ערך אמיתי מתאים לזכר
- "bucketized_user_age": ערכי גיל של המשתמש שערך את הדירוג, הערכים והטווחים המתאימים הם:
- 1: "מתחת לגיל 18"
- 18: "18-24"
- 25: "25-34"
- 35: "35-44"
- 45: "45-49"
- 50: "50-55"
- 56: "56+"
- "תווית_עיסוק_משתמש": עיסוקו של המשתמש שביצע את הדירוג המיוצג על ידי תווית מקודדת במספרים שלמים; התוויות מעובדות מראש כדי להיות עקביות בגרסאות שונות
- "user_occupation_text": העיסוק של המשתמש שערך את הדירוג במחרוזת המקורית; לגרסאות שונות יכולות להיות קבוצה שונה של תוויות טקסט גולמי
- "user_zip_code": המיקוד של המשתמש שערך את הדירוג
בנוסף, למערך הנתונים "100,000 דירוגים" תהיה גם תכונה "raw_user_age" שהיא הגילאים המדויקים של המשתמשים שביצעו את הדירוג
מערכי נתונים עם הסיומת "-movies" מכילים רק תכונות "movie_id", "movie_title" ו-"movie_genres".
תיעוד נוסף : חקור על ניירות עם קוד
קוד מקור :
tfds.structured.Movielens
גרסאות :
-
0.1.1
(ברירת מחדל): אין הערות שחרור.
-
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}
movielens/25m-ratings (תצורת ברירת מחדל)
- תיאור תצורה : מערך נתונים זה מכיל 25,000,095 דירוגים על פני 62,423 סרטים, שנוצרו על ידי 162,541 משתמשים בין ה-09 בינואר 1995 ל-21 בנובמבר,
- מערך הנתונים הזה הוא הגרסה היציבה האחרונה של מערך הנתונים של MovieLens, שנוצר ב-21 בנובמבר 2019.
כל משתמש דירג לפחות 20 סרטים. הדירוגים הם במרווחים של חצי כוכב. מערך נתונים זה אינו כולל נתונים דמוגרפיים.
גודל הורדה :
249.84 MiB
גודל מערך נתונים :
3.89 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 25,000,095 |
- מבנה תכונה :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
סרטים_ז'אנרים | Sequence (ClassLabel) | (אף אחד,) | int64 | |
סרט_מזהה | מוֹתֵחַ | חוּט | ||
שם הסרט | מוֹתֵחַ | חוּט | ||
חותמת זמן | מוֹתֵחַ | int64 | ||
תעודת זהות של המשתמש | מוֹתֵחַ | חוּט | ||
דירוג משתמש | מוֹתֵחַ | לצוף32 |
- דוגמאות ( tfds.as_dataframe ):
movielens/25m-movies
תיאור תצורה : מערך נתונים זה מכיל נתונים של 62,423 סרטים המדורגים במערך הנתונים של 25 מיליון.
גודל הורדה :
249.84 MiB
גודל ערכת נתונים :
5.71 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 62,423 |
- מבנה תכונה :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
סרטים_ז'אנרים | Sequence (ClassLabel) | (אף אחד,) | int64 | |
סרט_מזהה | מוֹתֵחַ | חוּט | ||
שם הסרט | מוֹתֵחַ | חוּט |
- דוגמאות ( tfds.as_dataframe ):
movielens/אחרונים-קטנים-דירוגים
- תיאור תצורה : מערך נתונים זה מכיל 100,836 דירוגים על פני 9,742 סרטים, שנוצרו על ידי 610 משתמשים בין 29 במרץ 1996 ל-24 בספטמבר 2018. מערך נתונים זה נוצר ב-26 בספטמבר 2018 והוא קבוצת משנה של הגרסה האחרונה המלאה של מערך הנתונים של MovieLens . מערך נתונים זה משתנה ומתעדכן לאורך זמן.
כל משתמש דירג לפחות 20 סרטים. הדירוגים הם במרווחים של חצי כוכב. מערך נתונים זה אינו כולל נתונים דמוגרפיים.
גודל הורדה :
955.28 KiB
גודל מערך נתונים :
15.82 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 100,836 |
- מבנה תכונה :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
סרטים_ז'אנרים | Sequence (ClassLabel) | (אף אחד,) | int64 | |
סרט_מזהה | מוֹתֵחַ | חוּט | ||
שם הסרט | מוֹתֵחַ | חוּט | ||
חותמת זמן | מוֹתֵחַ | int64 | ||
תעודת זהות של המשתמש | מוֹתֵחַ | חוּט | ||
דירוג משתמש | מוֹתֵחַ | לצוף32 |
- דוגמאות ( tfds.as_dataframe ):
movielens/האחרונים-קטנים-סרטים
תיאור תצורה : מערך נתונים זה מכיל נתונים של 9,742 סרטים שדורגו במערך הנתונים האחרון-קטן.
גודל הורדה :
955.28 KiB
גודל ערכת נתונים:
910.64 KiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 9,742 |
- מבנה תכונה :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
סרטים_ז'אנרים | Sequence (ClassLabel) | (אף אחד,) | int64 | |
סרט_מזהה | מוֹתֵחַ | חוּט | ||
שם הסרט | מוֹתֵחַ | חוּט |
- דוגמאות ( tfds.as_dataframe ):
movielens/100k-דירוגים
- תיאור תצורה : מערך נתונים זה מכיל 100,000 דירוגים מ-943 משתמשים ב-1,682 סרטים. מערך הנתונים הזה הוא הגרסה הישנה ביותר של מערך הנתונים של MovieLens.
כל משתמש דירג לפחות 20 סרטים. הדירוגים הם במרווחים של כוכבים שלמים. מערך נתונים זה מכיל נתונים דמוגרפיים של משתמשים בנוסף לנתונים על סרטים ודירוגים.
גודל הורדה :
4.70 MiB
גודל מערך נתונים :
32.41 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 100,000 |
- מבנה תכונה :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'raw_user_age': float32,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
bucketized_user_age | מוֹתֵחַ | לצוף32 | ||
סרטים_ז'אנרים | Sequence (ClassLabel) | (אף אחד,) | int64 | |
סרט_מזהה | מוֹתֵחַ | חוּט | ||
שם הסרט | מוֹתֵחַ | חוּט | ||
גיל_משתמש_גולמי | מוֹתֵחַ | לצוף32 | ||
חותמת זמן | מוֹתֵחַ | int64 | ||
מגדר_משתמש | מוֹתֵחַ | bool | ||
תעודת זהות של המשתמש | מוֹתֵחַ | חוּט | ||
תווית_עיסוק_משתמש | ClassLabel | int64 | ||
user_occupation_text | מוֹתֵחַ | חוּט | ||
דירוג משתמש | מוֹתֵחַ | לצוף32 | ||
user_zip_code | מוֹתֵחַ | חוּט |
- דוגמאות ( tfds.as_dataframe ):
movielens/100k-סרטים
תיאור תצורה : מערך נתונים זה מכיל נתונים של 1,682 סרטים שדורגו במערך הנתונים של 100,000.
גודל הורדה :
4.70 MiB
גודל מערך נתונים :
150.35 KiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,682 |
- מבנה תכונה :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
סרטים_ז'אנרים | Sequence (ClassLabel) | (אף אחד,) | int64 | |
סרט_מזהה | מוֹתֵחַ | חוּט | ||
שם הסרט | מוֹתֵחַ | חוּט |
- דוגמאות ( tfds.as_dataframe ):
movielens/1m-ratings
- תיאור תצורה : מערך נתונים זה מכיל 1,000,209 דירוגים אנונימיים של כ-3,900 סרטים שנוצרו על ידי 6,040 משתמשי MovieLens שהצטרפו ל- MovieLens ב
- מערך הנתונים הזה הוא מערך הנתונים הגדול ביותר הכולל נתונים דמוגרפיים.
כל משתמש דירג לפחות 20 סרטים. הדירוגים הם במרווחים של כוכבים שלמים. בנתונים דמוגרפיים, ערכי גיל מחולקים לטווחים וערך הגיל הנמוך ביותר עבור כל טווח משמש בנתונים במקום הערכים בפועל.
גודל הורדה :
5.64 MiB
גודל ערכת נתונים:
308.42 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 1,000,209 |
- מבנה תכונה :
FeaturesDict({
'bucketized_user_age': float32,
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_gender': bool,
'user_id': string,
'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
'user_occupation_text': string,
'user_rating': float32,
'user_zip_code': string,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
bucketized_user_age | מוֹתֵחַ | לצוף32 | ||
סרטים_ז'אנרים | Sequence (ClassLabel) | (אף אחד,) | int64 | |
סרט_מזהה | מוֹתֵחַ | חוּט | ||
שם הסרט | מוֹתֵחַ | חוּט | ||
חותמת זמן | מוֹתֵחַ | int64 | ||
מגדר_משתמש | מוֹתֵחַ | bool | ||
תעודת זהות של המשתמש | מוֹתֵחַ | חוּט | ||
תווית_עיסוק_משתמש | ClassLabel | int64 | ||
user_occupation_text | מוֹתֵחַ | חוּט | ||
דירוג משתמש | מוֹתֵחַ | לצוף32 | ||
user_zip_code | מוֹתֵחַ | חוּט |
- דוגמאות ( tfds.as_dataframe ):
movielens/1m-movies
תיאור תצורה : מערך נתונים זה מכיל נתונים של כ-3,900 סרטים המדורגים במערך הנתונים של 1 מיליון.
גודל הורדה :
5.64 MiB
גודל מערך נתונים :
351.12 KiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 3,883 |
- מבנה תכונה :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
סרטים_ז'אנרים | Sequence (ClassLabel) | (אף אחד,) | int64 | |
סרט_מזהה | מוֹתֵחַ | חוּט | ||
שם הסרט | מוֹתֵחַ | חוּט |
- דוגמאות ( tfds.as_dataframe ):
דירוגי עדשת סרטים/20 מטר
- תיאור תצורה : מערך נתונים זה מכיל 20,000,263 דירוגים על פני 27,278 סרטים, שנוצרו על ידי 138,493 משתמשים בין 09 בינואר 1995 ל-31 במרץ 2015. מערך נתונים זה נוצר ב-17 באוקטובר 2016.
כל משתמש דירג לפחות 20 סרטים. הדירוגים הם במרווחים של חצי כוכב. מערך נתונים זה אינו מכיל נתונים דמוגרפיים.
גודל הורדה :
189.50 MiB
גודל מערך נתונים :
3.10 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 20,000,263 |
- מבנה תכונה :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
'timestamp': int64,
'user_id': string,
'user_rating': float32,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
סרטים_ז'אנרים | Sequence (ClassLabel) | (אף אחד,) | int64 | |
סרט_מזהה | מוֹתֵחַ | חוּט | ||
שם הסרט | מוֹתֵחַ | חוּט | ||
חותמת זמן | מוֹתֵחַ | int64 | ||
תעודת זהות של המשתמש | מוֹתֵחַ | חוּט | ||
דירוג משתמש | מוֹתֵחַ | לצוף32 |
- דוגמאות ( tfds.as_dataframe ):
movielens/20m-movies
תיאור תצורה : מערך נתונים זה מכיל נתונים של 27,278 סרטים המדורגים במערך הנתונים של 20 מיליון
גודל הורדה :
189.50 MiB
גודל מערך נתונים :
2.55 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 27,278 |
- מבנה תכונה :
FeaturesDict({
'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
'movie_id': string,
'movie_title': string,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
סרטים_ז'אנרים | Sequence (ClassLabel) | (אף אחד,) | int64 | |
סרט_מזהה | מוֹתֵחַ | חוּט | ||
שם הסרט | מוֹתֵחַ | חוּט |
- דוגמאות ( tfds.as_dataframe ):