movie_lens

  • คำอธิบาย :

ชุดข้อมูลนี้มีชุดการจัดเรตภาพยนตร์จากเว็บไซต์ MovieLens ซึ่งเป็นบริการแนะนำภาพยนตร์ ชุดข้อมูลนี้รวบรวมและดูแลโดย GroupLens ซึ่งเป็นกลุ่มวิจัยของมหาวิทยาลัยมินนิโซตา มี 5 เวอร์ชัน ได้แก่ "25m", "latest-small", "100k", "1m", "20m" ในชุดข้อมูลทั้งหมด ข้อมูลภาพยนตร์และข้อมูลการจัดอันดับจะรวมเข้ากับ "movieId" ชุดข้อมูล 25m ชุดข้อมูลขนาดเล็กล่าสุด และชุดข้อมูล 20m มีเฉพาะข้อมูลภาพยนตร์และข้อมูลการจัดเรตเท่านั้น ชุดข้อมูล 1m และชุดข้อมูล 100k ประกอบด้วยข้อมูลประชากรนอกเหนือจากข้อมูลภาพยนตร์และการจัดอันดับ

  • "25m": นี่คือชุดข้อมูล MovieLens เวอร์ชันเสถียรล่าสุด ขอแนะนำเพื่อวัตถุประสงค์ในการวิจัย
  • "latest-small": นี่คือส่วนย่อยเล็กๆ ของชุดข้อมูล MovieLens เวอร์ชันล่าสุด มีการเปลี่ยนแปลงและอัปเดตเมื่อเวลาผ่านไปโดย GroupLens
  • "100k": นี่คือชุดข้อมูล MovieLens เวอร์ชันเก่าที่สุด เป็นชุดข้อมูลขนาดเล็กที่มีข้อมูลประชากร
  • "1m": นี่คือชุดข้อมูล MovieLens ที่ใหญ่ที่สุดที่มีข้อมูลประชากร
  • "20m": นี่เป็นหนึ่งในชุดข้อมูล MovieLens ที่ใช้มากที่สุดในเอกสารทางวิชาการพร้อมกับชุดข้อมูล 1m

สำหรับแต่ละเวอร์ชัน ผู้ใช้สามารถดูเฉพาะข้อมูลภาพยนตร์โดยเพิ่ม "-movies" ต่อท้าย (เช่น "25m-movies") หรือข้อมูลการจัดเรตร่วมกับข้อมูลภาพยนตร์ (และข้อมูลผู้ใช้ในชุดข้อมูล 1m และ 100k) โดยการเพิ่ม คำต่อท้าย "-เรทติ้ง" (เช่น "เรทติ้ง 25m")

คุณสมบัติด้านล่างนี้รวมอยู่ในทุกเวอร์ชันที่มี "-ratings" ต่อท้าย

  • "movie_id": ตัวระบุเฉพาะของภาพยนตร์ที่ได้รับการจัดอันดับ
  • "movie_title": ชื่อของภาพยนตร์ที่มีการจัดอันดับพร้อมปีที่ออกฉายในวงเล็บ
  • "movie_genres": ลำดับของประเภทภาพยนตร์ที่มีการจัดเรต
  • "user_id": ตัวระบุเฉพาะของผู้ใช้ที่ให้คะแนน
  • "user_rating": คะแนนของการให้คะแนนในระดับห้าดาว
  • "การประทับเวลา": การประทับเวลาของการให้คะแนน แสดงเป็นวินาทีตั้งแต่เที่ยงคืนตามเวลาสากลเชิงพิกัด (UTC) ของวันที่ 1 มกราคม พ.ศ. 2513

นอกจากนี้ เวอร์ชัน "100k-ratings" และ "1m-ratings" ยังรวมถึงคุณลักษณะด้านประชากรดังต่อไปนี้

  • "user_gender": เพศของผู้ใช้ที่ให้คะแนน; ค่าที่แท้จริงสอดคล้องกับเพศชาย
  • "bucketized_user_age": ค่าอายุที่เก็บข้อมูลของผู้ใช้ที่ให้คะแนน ค่าและช่วงที่เกี่ยวข้องคือ:
    • 1: "อายุต่ำกว่า 18 ปี"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "user_occupation_label": อาชีพของผู้ใช้ที่ให้คะแนนแทนด้วยป้ายกำกับที่เข้ารหัสด้วยจำนวนเต็ม ฉลากได้รับการประมวลผลล่วงหน้าเพื่อให้สอดคล้องกันในเวอร์ชันต่างๆ
  • "user_occupation_text": อาชีพของผู้ใช้ที่ให้คะแนนในสตริงเดิม เวอร์ชันต่างๆ สามารถมีชุดป้ายกำกับข้อความดิบที่แตกต่างกันได้
  • "user_zip_code": รหัสไปรษณีย์ของผู้ใช้ที่ให้คะแนน

นอกจากนี้ ชุดข้อมูล "100k-ratings" ยังมีคุณสมบัติ "raw_user_age" ซึ่งเป็นอายุที่แน่นอนของผู้ใช้ที่ให้คะแนน

ชุดข้อมูลที่มี "-movies" ต่อท้ายมีคุณลักษณะ "movie_id", "movie_title" และ "movie_genres" เท่านั้น

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movie_lens/25m-ratings (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้มีการจัดอันดับ 25,000,095 ในภาพยนตร์ 62,423 เรื่อง สร้างโดยผู้ใช้ 162,541 คนระหว่างวันที่ 9 มกราคม 1995 ถึง 21 พฤศจิกายน
  • ชุดข้อมูลนี้เป็นชุดข้อมูล MovieLens เวอร์ชันเสถียรล่าสุด ซึ่งสร้างขึ้นเมื่อวันที่ 21 พฤศจิกายน 2019

ผู้ใช้แต่ละคนให้คะแนนภาพยนตร์อย่างน้อย 20 เรื่อง เรตติ้งขึ้นทีละครึ่งดาว ชุดข้อมูลนี้ไม่รวมข้อมูลประชากร

  • ขนาดการดาวน์โหลด : 249.84 MiB

  • ขนาดชุดข้อมูล : 3.89 GiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'train' 25,000,095
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
movie_genres ลำดับ (ClassLabel) (ไม่มี,) int64
movie_id เทนเซอร์ สตริง
ชื่อหนัง เทนเซอร์ สตริง
การประทับเวลา เทนเซอร์ int64
user_id เทนเซอร์ สตริง
user_rating เทนเซอร์ ลอย32

movie_lens/ภาพยนตร์ 25 ม

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ประกอบด้วยข้อมูลของภาพยนตร์ 62,423 เรตในชุดข้อมูล 25m

  • ขนาดการดาวน์โหลด : 249.84 MiB

  • ขนาดชุดข้อมูล : 5.71 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 62,423
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
movie_genres ลำดับ (ClassLabel) (ไม่มี,) int64
movie_id เทนเซอร์ สตริง
ชื่อหนัง เทนเซอร์ สตริง

movie_lens/latest-small-ratings

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้มีการจัดอันดับ 100,836 เรื่องในภาพยนตร์ 9,742 เรื่อง สร้างขึ้นโดยผู้ใช้ 610 คนระหว่างวันที่ 29 มีนาคม 1996 ถึง 24 กันยายน 2018 ชุดข้อมูลนี้สร้างขึ้นเมื่อวันที่ 26 กันยายน 2018 และเป็นส่วนย่อยของชุดข้อมูล MovieLens เวอร์ชันล่าสุด . ชุดข้อมูลนี้มีการเปลี่ยนแปลงและอัปเดตเมื่อเวลาผ่านไป

ผู้ใช้แต่ละคนให้คะแนนภาพยนตร์อย่างน้อย 20 เรื่อง เรตติ้งขึ้นทีละครึ่งดาว ชุดข้อมูลนี้ไม่รวมข้อมูลประชากร

  • ขนาดการดาวน์โหลด : 955.28 KiB

  • ขนาดชุดข้อมูล : 15.82 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 100,836
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
movie_genres ลำดับ (ClassLabel) (ไม่มี,) int64
movie_id เทนเซอร์ สตริง
ชื่อหนัง เทนเซอร์ สตริง
การประทับเวลา เทนเซอร์ int64
user_id เทนเซอร์ สตริง
user_rating เทนเซอร์ ลอย32

movie_lens/latest-small-movies

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้มีข้อมูลของภาพยนตร์ 9,742 เรื่องซึ่งจัดเรตในชุดข้อมูลขนาดเล็กล่าสุด

  • ขนาดการดาวน์โหลด : 955.28 KiB

  • ขนาดชุดข้อมูล : 910.64 KiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 9,742
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
movie_genres ลำดับ (ClassLabel) (ไม่มี,) int64
movie_id เทนเซอร์ สตริง
ชื่อหนัง เทนเซอร์ สตริง

movie_lens/100k-เรทติ้ง

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้มีการจัดอันดับ 100,000 รายการจากผู้ใช้ 943 คนในภาพยนตร์ 1,682 เรื่อง ชุดข้อมูลนี้เป็นชุดข้อมูล MovieLens เวอร์ชันเก่าที่สุด

ผู้ใช้แต่ละคนให้คะแนนภาพยนตร์อย่างน้อย 20 เรื่อง การให้คะแนนจะเพิ่มขึ้นทีละดาว ชุดข้อมูลนี้ประกอบด้วยข้อมูลประชากรของผู้ใช้ นอกเหนือจากข้อมูลเกี่ยวกับภาพยนตร์และการให้คะแนน

  • ขนาดการดาวน์โหลด : 4.70 MiB

  • ขนาดชุดข้อมูล : 32.41 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 100,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
bucketized_user_age เทนเซอร์ ลอย32
movie_genres ลำดับ (ClassLabel) (ไม่มี,) int64
movie_id เทนเซอร์ สตริง
ชื่อหนัง เทนเซอร์ สตริง
raw_user_age เทนเซอร์ ลอย32
การประทับเวลา เทนเซอร์ int64
user_gender เทนเซอร์ บูล
user_id เทนเซอร์ สตริง
user_occupation_label ป้ายกำกับคลาส int64
user_occupation_text เทนเซอร์ สตริง
user_rating เทนเซอร์ ลอย32
user_zip_code เทนเซอร์ สตริง

movie_lens/100k-movies

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้มีข้อมูลของภาพยนตร์ 1,682 เรื่องที่จัดเรตในชุดข้อมูล 100k

  • ขนาดการดาวน์โหลด : 4.70 MiB

  • ขนาดชุดข้อมูล : 150.35 KiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 1,682
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
movie_genres ลำดับ (ClassLabel) (ไม่มี,) int64
movie_id เทนเซอร์ สตริง
ชื่อหนัง เทนเซอร์ สตริง

movie_lens/เรทติ้ง 1m

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้มีการจัดอันดับแบบไม่ระบุชื่อ 1,000,209 เรื่องจากภาพยนตร์ประมาณ 3,900 เรื่องที่สร้างโดยผู้ใช้ MovieLens 6,040 รายที่เข้าร่วม MovieLens ใน
  • ชุดข้อมูลนี้เป็นชุดข้อมูลที่ใหญ่ที่สุดที่มีข้อมูลประชากร

ผู้ใช้แต่ละคนให้คะแนนภาพยนตร์อย่างน้อย 20 เรื่อง การให้คะแนนจะเพิ่มขึ้นทีละดาว ในข้อมูลประชากร ค่าอายุจะแบ่งออกเป็นช่วงต่างๆ และค่าอายุที่ต่ำที่สุดสำหรับแต่ละช่วงจะถูกใช้ในข้อมูลแทนค่าจริง

  • ขนาดการดาวน์โหลด : 5.64 MiB

  • ขนาดชุดข้อมูล : 308.42 MiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'train' 1,000,209
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
bucketized_user_age เทนเซอร์ ลอย32
movie_genres ลำดับ (ClassLabel) (ไม่มี,) int64
movie_id เทนเซอร์ สตริง
ชื่อหนัง เทนเซอร์ สตริง
การประทับเวลา เทนเซอร์ int64
user_gender เทนเซอร์ บูล
user_id เทนเซอร์ สตริง
user_occupation_label ป้ายกำกับคลาส int64
user_occupation_text เทนเซอร์ สตริง
user_rating เทนเซอร์ ลอย32
user_zip_code เทนเซอร์ สตริง

movie_lens/1m-movies

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้มีข้อมูลของภาพยนตร์ประมาณ 3,900 เรื่องที่มีการจัดอันดับในชุดข้อมูล 1m

  • ขนาดการดาวน์โหลด : 5.64 MiB

  • ขนาดชุดข้อมูล : 351.12 KiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 3,883
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
movie_genres ลำดับ (ClassLabel) (ไม่มี,) int64
movie_id เทนเซอร์ สตริง
ชื่อหนัง เทนเซอร์ สตริง

movie_lens/เรทติ้ง 20m

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้มีการจัดอันดับ 20,000,263 ในภาพยนตร์ 27,278 เรื่อง สร้างโดยผู้ใช้ 138,493 คนระหว่างวันที่ 9 มกราคม 1995 ถึง 31 มีนาคม 2015 ชุดข้อมูลนี้สร้างขึ้นเมื่อวันที่ 17 ตุลาคม 2016

ผู้ใช้แต่ละคนให้คะแนนภาพยนตร์อย่างน้อย 20 เรื่อง การให้คะแนนจะเพิ่มทีละครึ่งดาว ชุดข้อมูลนี้ไม่มีข้อมูลประชากร

  • ขนาดการดาวน์โหลด : 189.50 MiB

  • ขนาดชุดข้อมูล : 3.10 GiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'train' 20,000,263
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
movie_genres ลำดับ (ClassLabel) (ไม่มี,) int64
movie_id เทนเซอร์ สตริง
ชื่อหนัง เทนเซอร์ สตริง
การประทับเวลา เทนเซอร์ int64
user_id เทนเซอร์ สตริง
user_rating เทนเซอร์ ลอย32

movie_lens/ภาพยนตร์ 20 ม

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลนี้ประกอบด้วยข้อมูลของภาพยนตร์ 27,278 เรตในชุดข้อมูล 20m

  • ขนาดการดาวน์โหลด : 189.50 MiB

  • ขนาดชุดข้อมูล : 2.55 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 27,278
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
movie_genres ลำดับ (ClassLabel) (ไม่มี,) int64
movie_id เทนเซอร์ สตริง
ชื่อหนัง เทนเซอร์ สตริง