ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

เลนส์หนัง

  • รายละเอียด:

ชุดข้อมูลนี้ประกอบด้วยชุดการให้คะแนนภาพยนตร์จากเว็บไซต์ MovieLens ซึ่งเป็นบริการแนะนำภาพยนตร์ ชุดนี้ถูกเก็บรวบรวมและดูแลโดย GroupLens กลุ่มวิจัยที่มหาวิทยาลัยมินนิโซตา มีทั้งหมด 5 เวอร์ชัน ได้แก่ "25m", "latest-small", "100k", "1m", "20m" ในชุดข้อมูลทั้งหมด ข้อมูลภาพยนตร์และข้อมูลการจัดเรตจะรวมเข้ากับ "movieId" ชุดข้อมูล 25 ม. ชุดข้อมูลขนาดเล็กล่าสุด และชุดข้อมูล 20 ม. มีเฉพาะข้อมูลภาพยนตร์และข้อมูลการจัดประเภท ชุดข้อมูล 1m และชุดข้อมูล 100k มีข้อมูลประชากรนอกเหนือจากข้อมูลภาพยนตร์และการจัดเรต

  • "25m": นี่เป็นเวอร์ชันเสถียรล่าสุดของชุดข้อมูล MovieLens ขอแนะนำเพื่อการวิจัย
  • "latest-small": นี่เป็นชุดย่อยขนาดเล็กของชุดข้อมูล MovieLens เวอร์ชันล่าสุด GroupLens มีการเปลี่ยนแปลงและอัปเดตเมื่อเวลาผ่านไป
  • "100k": นี่เป็นเวอร์ชันเก่าที่สุดของชุดข้อมูล MovieLens เป็นชุดข้อมูลขนาดเล็กที่มีข้อมูลประชากร
  • "1m": นี่คือชุดข้อมูล MovieLens ที่ใหญ่ที่สุดที่มีข้อมูลประชากร
  • "20m": นี่เป็นหนึ่งในชุดข้อมูล MovieLens ที่ใช้มากที่สุดในเอกสารทางวิชาการพร้อมกับชุดข้อมูล 1m

สำหรับแต่ละเวอร์ชัน ผู้ใช้สามารถดูเฉพาะข้อมูลภาพยนตร์โดยเพิ่มส่วนต่อท้าย "-movies" (เช่น "25m-movies") หรือข้อมูลการให้คะแนนที่รวมเข้ากับข้อมูลภาพยนตร์ (และข้อมูลผู้ใช้ในชุดข้อมูล 1m และ 100k) โดยการเพิ่ม คำต่อท้าย "-การจัดอันดับ" (เช่น "25m-การจัดอันดับ")

คุณลักษณะด้านล่างนี้รวมอยู่ในทุกเวอร์ชันที่มีส่วนต่อท้าย "-การให้คะแนน"

  • "movie_id": ตัวระบุเฉพาะของภาพยนตร์เรท
  • "movie_title": ชื่อภาพยนตร์เรทโดยวงเล็บปีที่ออกฉาย
  • "movie_genres": ลำดับของประเภทที่เป็นของภาพยนตร์เรทติ้ง
  • "user_id": ตัวระบุเฉพาะของผู้ใช้ที่ทำการให้คะแนน
  • "user_rating": คะแนนของการให้คะแนนในระดับห้าดาว
  • "ประทับเวลา": การประทับเวลาของการให้คะแนน แสดงเป็นวินาทีตั้งแต่เที่ยงคืนของเวลาสากลเชิงพิกัด (UTC) ของวันที่ 1 มกราคม 1970

นอกจากนี้ เวอร์ชัน "100k-ratings" และ "1m-ratings" ยังมีคุณลักษณะด้านประชากรศาสตร์ต่อไปนี้

  • "user_gender": เพศของผู้ใช้ที่ให้คะแนน; คุณค่าที่แท้จริงสอดคล้องกับเพศชาย
  • "bucketized_user_age": ค่าอายุที่เก็บข้อมูลของผู้ใช้ที่ให้คะแนน ค่าและช่วงที่สอดคล้องกันคือ:
    • 1: "อายุต่ำกว่า 18 ปี"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "user_occupation_label": อาชีพของผู้ใช้ที่ให้คะแนนโดยป้ายกำกับที่เข้ารหัสเป็นจำนวนเต็ม ป้ายกำกับได้รับการประมวลผลล่วงหน้าเพื่อให้สอดคล้องกันในเวอร์ชันต่างๆ
  • "user_occupation_text": อาชีพของผู้ใช้ที่ให้คะแนนในสตริงดั้งเดิม เวอร์ชันต่างๆ สามารถมีชุดป้ายกำกับข้อความดิบที่แตกต่างกันได้
  • "user_zip_code": รหัสไปรษณีย์ของผู้ใช้ที่ให้คะแนน

นอกจากนี้ ชุดข้อมูล "คะแนน 100k" ก็จะมีฟีเจอร์ "raw_user_age" ซึ่งเป็นอายุที่แน่นอนของผู้ใช้ที่ทำคะแนน

ชุดข้อมูลที่มีส่วนต่อท้าย "-movies" มีเพียงคุณสมบัติ "movie_id", "movie_title" และ "movie_genres"

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens/25m- เรตติ้ง (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย Config: ชุดนี้มีการจัดอันดับทั่ว 25,000,095 62,423 ภาพยนตร์ที่สร้างขึ้นโดยผู้ใช้ 162,541 ระหว่าง 9 มกราคม 1995 และวันที่ 21 พฤศจิกายน
  • ชุดข้อมูลนี้เป็นชุดข้อมูล MovieLens เวอร์ชันเสถียรล่าสุด ซึ่งสร้างเมื่อวันที่ 21 พฤศจิกายน 2019

ผู้ใช้แต่ละคนได้ให้คะแนนภาพยนตร์อย่างน้อย 20 เรื่อง การให้คะแนนจะเพิ่มขึ้นทีละครึ่งดาว ชุดข้อมูลนี้ไม่รวมข้อมูลประชากร

  • ขนาดการดาวน์โหลด: 249.84 MiB

  • ขนาดชุด: 3.89 GiB

  • ออโต้แคช ( เอกสาร ): ไม่มี

  • แยก:

แยก ตัวอย่าง
'train' 25,000,095
  • คุณสมบัติ:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movielens/25m-movies

  • คำอธิบาย Config: ชุดนี้ประกอบด้วยข้อมูลที่ 62,423 ภาพยนตร์ที่อยู่ในชุด 25m

  • ขนาดการดาวน์โหลด: 249.84 MiB

  • ขนาดชุด: 5.71 MiB

  • ออโต้แคช ( เอกสาร ): ใช่

  • แยก:

แยก ตัวอย่าง
'train' 62,423
  • คุณสมบัติ:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens/latest-small-ratings

  • คำอธิบาย Config: ชุดนี้มีการจัดอันดับทั่ว 100,836 9742 ภาพยนตร์ที่สร้างขึ้นโดยผู้ใช้ 610 คนระหว่าง 29 มีนาคม 1996 และวันที่ 24 กันยายน 2018 ชุดนี้ถูกสร้างขึ้นบน 26 กันยายน 2018 และเป็นส่วนหนึ่งของรุ่นล่าสุดเต็มรูปแบบของชุดข้อมูล MovieLens . ชุดข้อมูลนี้มีการเปลี่ยนแปลงและอัปเดตเมื่อเวลาผ่านไป

ผู้ใช้แต่ละคนได้ให้คะแนนภาพยนตร์อย่างน้อย 20 เรื่อง การให้คะแนนจะเพิ่มขึ้นทีละครึ่งดาว ชุดข้อมูลนี้ไม่รวมข้อมูลประชากร

  • ขนาดการดาวน์โหลด: 955.28 KiB

  • ขนาดชุด: 15.82 MiB

  • ออโต้แคช ( เอกสาร ): ใช่

  • แยก:

แยก ตัวอย่าง
'train' 100,836
  • คุณสมบัติ:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movielens/latest-small-movies

  • คำอธิบาย Config: ชุดนี้มีข้อมูลของ 9742 ภาพยนตร์ที่อยู่ในชุดล่าสุดขนาดเล็ก

  • ขนาดการดาวน์โหลด: 955.28 KiB

  • ขนาดชุด: 910.64 KiB

  • ออโต้แคช ( เอกสาร ): ใช่

  • แยก:

แยก ตัวอย่าง
'train' 9,742
  • คุณสมบัติ:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens / 100k- เรตติ้ง

  • คำอธิบาย Config: ชุดนี้มี 100,000 การให้คะแนนจากผู้ใช้ 943 คนใน 1,682 ภาพยนตร์ ชุดข้อมูลนี้เป็นชุดข้อมูล MovieLens เวอร์ชันเก่าที่สุด

ผู้ใช้แต่ละคนได้ให้คะแนนภาพยนตร์อย่างน้อย 20 เรื่อง การให้คะแนนเป็นการเพิ่มทีละดาว ชุดข้อมูลนี้มีข้อมูลประชากรของผู้ใช้นอกเหนือจากข้อมูลเกี่ยวกับภาพยนตร์และการให้คะแนน

  • ขนาดการดาวน์โหลด: 4.70 MiB

  • ขนาดชุด: 32.41 MiB

  • ออโต้แคช ( เอกสาร ): ใช่

  • แยก:

แยก ตัวอย่าง
'train' 100,000
  • คุณสมบัติ:
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'raw_user_age': tf.float32,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

movielens / ภาพยนตร์ 100k

  • คำอธิบาย Config: ชุดนี้มีข้อมูลของ 1,682 ภาพยนตร์ที่อยู่ในชุดข้อมูลที่ 100k

  • ขนาดการดาวน์โหลด: 4.70 MiB

  • ขนาดชุด: 150.35 KiB

  • ออโต้แคช ( เอกสาร ): ใช่

  • แยก:

แยก ตัวอย่าง
'train' 1,682
  • คุณสมบัติ:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens/1m-เรทติ้ง

  • คำอธิบาย Config: ชุดนี้มีการจัดอันดับที่ไม่ระบุชื่อ 1000209 ประมาณ 3,900 ภาพยนตร์ที่ทำโดยผู้ใช้ 6,040 MovieLens ที่เข้าร่วมใน MovieLens
  • ชุดข้อมูลนี้เป็นชุดข้อมูลที่ใหญ่ที่สุดที่มีข้อมูลประชากร

ผู้ใช้แต่ละคนได้ให้คะแนนภาพยนตร์อย่างน้อย 20 เรื่อง การให้คะแนนเป็นการเพิ่มทีละดาว ในข้อมูลประชากร ค่าอายุจะแบ่งออกเป็นช่วง และค่าอายุต่ำสุดสำหรับแต่ละช่วงจะถูกใช้ในข้อมูลแทนค่าจริง

  • ขนาดการดาวน์โหลด: 5.64 MiB

  • ขนาดชุด: 308.42 MiB

  • ออโต้แคช ( เอกสาร ): ไม่มี

  • แยก:

แยก ตัวอย่าง
'train' 1,000,209
  • คุณสมบัติ:
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

movielens/1m-movies

  • คำอธิบาย Config: ชุดนี้มีข้อมูลประมาณ 3,900 ภาพยนตร์ที่อยู่ในชุด 1m

  • ขนาดการดาวน์โหลด: 5.64 MiB

  • ขนาดชุด: 351.12 KiB

  • ออโต้แคช ( เอกสาร ): ใช่

  • แยก:

แยก ตัวอย่าง
'train' 3,883
  • คุณสมบัติ:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movielens/20m-เรทติ้ง

  • คำอธิบาย Config: ชุดนี้มีการจัดอันดับทั่ว 20,000,263 27,278 ภาพยนตร์ที่สร้างขึ้นโดยผู้ใช้ 138,493 ระหว่าง 9 มกราคม 1995 และวันที่ 31 มีนาคมปี 2015 ชุดนี้สร้างเมื่อ 17 ตุลาคม 2016

ผู้ใช้แต่ละคนได้ให้คะแนนภาพยนตร์อย่างน้อย 20 เรื่อง การให้คะแนนจะเพิ่มขึ้นทีละครึ่งดาว ชุดข้อมูลนี้ไม่มีข้อมูลประชากร

  • ขนาดการดาวน์โหลด: 189.50 MiB

  • ขนาดชุด: 3.10 GiB

  • ออโต้แคช ( เอกสาร ): ไม่มี

  • แยก:

แยก ตัวอย่าง
'train' 20,000,263
  • คุณสมบัติ:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movielens/20m-movies

  • คำอธิบาย Config: ชุดนี้ประกอบด้วยข้อมูลที่ 27,278 ภาพยนตร์ที่อยู่ในชุด 20m

  • ขนาดการดาวน์โหลด: 189.50 MiB

  • ขนาดชุด: 2.55 MiB

  • ออโต้แคช ( เอกสาร ): ใช่

  • แยก:

แยก ตัวอย่าง
'train' 27,278
  • คุณสมบัติ:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})