người làm phim

  • Mô tả :

Tập dữ liệu này chứa một tập hợp xếp hạng phim từ trang web MovieLens, một dịch vụ đề xuất phim. Bộ dữ liệu này được thu thập và duy trì bởi GroupLens , một nhóm nghiên cứu tại Đại học Minnesota. Có 5 phiên bản đi kèm: "25m", "nhỏ mới nhất", "100k", "1m", "20m". Trong tất cả các bộ dữ liệu, dữ liệu phim và dữ liệu xếp hạng được kết hợp trên "movieId". Tập dữ liệu 25m, tập dữ liệu nhỏ mới nhất và tập dữ liệu 20m chỉ chứa dữ liệu phim và dữ liệu xếp hạng. Tập dữ liệu 1m và tập dữ liệu 100k chứa dữ liệu nhân khẩu học ngoài dữ liệu xếp hạng và phim.

  • "25m": Đây là phiên bản ổn định mới nhất của bộ dữ liệu MovieLens. Nó được khuyến khích cho mục đích nghiên cứu.
  • "latest-small": Đây là một tập hợp con nhỏ của phiên bản mới nhất của bộ dữ liệu MovieLens. Nó được GroupLens thay đổi và cập nhật theo thời gian.
  • "100k": Đây là phiên bản cũ nhất của bộ dữ liệu MovieLens. Nó là một tập dữ liệu nhỏ với dữ liệu nhân khẩu học.
  • "1m": Đây là tập dữ liệu MovieLens lớn nhất chứa dữ liệu nhân khẩu học.
  • "20m": Đây là một trong những bộ dữ liệu MovieLens được sử dụng nhiều nhất trong các bài báo học thuật cùng với bộ dữ liệu 1m.

Đối với mỗi phiên bản, người dùng chỉ có thể xem dữ liệu phim bằng cách thêm hậu tố "-movies" (ví dụ: "25m-phim") hoặc dữ liệu xếp hạng được kết hợp với dữ liệu phim (và dữ liệu người dùng trong bộ dữ liệu 1m và 100k) bằng cách thêm hậu tố "-ratings" (ví dụ: "25m-ratings").

Các tính năng bên dưới được bao gồm trong tất cả các phiên bản có hậu tố "-ratings".

  • "movie_id": mã định danh duy nhất của phim được xếp hạng
  • "movie_title": tiêu đề của bộ phim được xếp hạng với năm phát hành trong ngoặc đơn
  • "movie_genres": một chuỗi các thể loại mà phim được xếp hạng thuộc về
  • "user_id": mã định danh duy nhất của người dùng đã xếp hạng
  • "user_rating": điểm xếp hạng theo thang điểm năm sao
  • "dấu thời gian": dấu thời gian của xếp hạng, được biểu thị bằng giây kể từ nửa đêm Giờ phối hợp quốc tế (UTC) ngày 1 tháng 1 năm 1970

Ngoài ra, các phiên bản "100k-xếp hạng" và "1m-xếp hạng" bao gồm các tính năng nhân khẩu học sau.

  • "user_gender": giới tính của người dùng đã đánh giá; một giá trị true tương ứng với nam
  • "bucketized_user_age": giá trị độ tuổi được nhóm hóa của người dùng đã xếp hạng, các giá trị và phạm vi tương ứng là:
    • 1: "Dưới 18 tuổi"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "user_occupation_label": nghề nghiệp của người dùng đã thực hiện xếp hạng được biểu thị bằng nhãn được mã hóa bằng số nguyên; nhãn được xử lý trước để nhất quán trên các phiên bản khác nhau
  • "user_occupation_text": nghề nghiệp của người dùng đã đánh giá trong chuỗi gốc; các phiên bản khác nhau có thể có bộ nhãn văn bản thô khác nhau
  • "user_zip_code": mã zip của người dùng đã xếp hạng

Ngoài ra, bộ dữ liệu "100k-ratings" cũng sẽ có một tính năng "raw_user_age" là độ tuổi chính xác của người dùng đã xếp hạng

Bộ dữ liệu có hậu tố "-movie" chỉ chứa các tính năng "movie_id", "movie_title" và "movie_genres".

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens/25m-ratings (cấu hình mặc định)

  • Mô tả cấu hình : Tập dữ liệu này chứa 25.000.095 xếp hạng trên 62.423 phim, được tạo bởi 162.541 người dùng trong khoảng thời gian từ ngày 09 tháng 1 năm 1995 đến ngày 21 tháng 11 năm
  • Bộ dữ liệu này là phiên bản ổn định mới nhất của bộ dữ liệu MovieLens, được tạo vào ngày 21 tháng 11 năm 2019.

Mỗi người dùng đã xếp hạng ít nhất 20 phim. Xếp hạng theo gia số nửa sao. Bộ dữ liệu này không bao gồm dữ liệu nhân khẩu học.

  • Kích thước tải xuống : 249.84 MiB

  • Kích thước tập dữ liệu : 3.89 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 25.000.095
  • Cấu trúc tính năng :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
phim_genres Trình tự (Nhãn lớp) (Không có,) int64
phim_id tenxơ sợi dây
phim_title tenxơ sợi dây
dấu thời gian tenxơ int64
tên người dùng tenxơ sợi dây
Đánh giá của người dùng tenxơ phao32

ống kính phim/25m-phim

  • Mô tả cấu hình : Tập dữ liệu này chứa dữ liệu của 62.423 phim được xếp hạng trong tập dữ liệu 25m.

  • Kích thước tải xuống : 249.84 MiB

  • Kích thước tập dữ liệu : 5.71 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 62,423
  • Cấu trúc tính năng :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
phim_genres Trình tự (Nhãn lớp) (Không có,) int64
phim_id tenxơ sợi dây
phim_title tenxơ sợi dây

phimlens/xếp hạng nhỏ mới nhất

  • Mô tả cấu hình : Tập dữ liệu này chứa 100.836 xếp hạng trên 9.742 phim, được tạo bởi 610 người dùng trong khoảng thời gian từ ngày 29 tháng 3 năm 1996 đến ngày 24 tháng 9 năm 2018. Tập dữ liệu này được tạo vào ngày 26 tháng 9 năm 2018 và là tập hợp con của phiên bản đầy đủ mới nhất của bộ dữ liệu MovieLens . Bộ dữ liệu này được thay đổi và cập nhật theo thời gian.

Mỗi người dùng đã xếp hạng ít nhất 20 phim. Xếp hạng theo gia số nửa sao. Bộ dữ liệu này không bao gồm dữ liệu nhân khẩu học.

  • Kích thước tải xuống : 955.28 KiB

  • Kích thước tập dữ liệu : 15.82 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 100,836
  • Cấu trúc tính năng :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
phim_genres Trình tự (Nhãn lớp) (Không có,) int64
phim_id tenxơ sợi dây
phim_title tenxơ sợi dây
dấu thời gian tenxơ int64
tên người dùng tenxơ sợi dây
Đánh giá của người dùng tenxơ phao32

phimlens/phim-nhỏ-mới-nhất

  • Mô tả cấu hình : Tập dữ liệu này chứa dữ liệu của 9.742 phim được xếp hạng trong tập dữ liệu nhỏ mới nhất.

  • Kích thước tải xuống : 955.28 KiB

  • Kích thước tập dữ liệu : 910.64 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 9,742
  • Cấu trúc tính năng :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
phim_genres Trình tự (Nhãn lớp) (Không có,) int64
phim_id tenxơ sợi dây
phim_title tenxơ sợi dây

ống kính phim/100k-xếp hạng

  • Mô tả cấu hình : Tập dữ liệu này chứa 100.000 xếp hạng từ 943 người dùng trên 1.682 phim. Bộ dữ liệu này là phiên bản cũ nhất của bộ dữ liệu MovieLens.

Mỗi người dùng đã xếp hạng ít nhất 20 phim. Xếp hạng theo gia số toàn sao. Bộ dữ liệu này chứa dữ liệu nhân khẩu học của người dùng ngoài dữ liệu về phim và xếp hạng.

  • Kích thước tải xuống : 4.70 MiB

  • Kích thước tập dữ liệu : 32.41 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 100.000
  • Cấu trúc tính năng :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
xô hóa_user_age tenxơ phao32
phim_genres Trình tự (Nhãn lớp) (Không có,) int64
phim_id tenxơ sợi dây
phim_title tenxơ sợi dây
raw_user_age tenxơ phao32
dấu thời gian tenxơ int64
user_gender tenxơ bool
tên người dùng tenxơ sợi dây
user_occupation_label LớpNhãn int64
user_occupation_text tenxơ sợi dây
Đánh giá của người dùng tenxơ phao32
user_zip_code tenxơ sợi dây

ống kính phim/100k-phim

  • Mô tả cấu hình : Tập dữ liệu này chứa dữ liệu của 1.682 phim được xếp hạng trong tập dữ liệu 100k.

  • Kích thước tải xuống : 4.70 MiB

  • Kích thước tập dữ liệu : 150.35 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 1.682
  • Cấu trúc tính năng :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
phim_genres Trình tự (Nhãn lớp) (Không có,) int64
phim_id tenxơ sợi dây
phim_title tenxơ sợi dây

ống kính phim/1m-xếp hạng

  • Mô tả cấu hình : Tập dữ liệu này chứa 1.000.209 xếp hạng ẩn danh của khoảng 3.900 phim được thực hiện bởi 6.040 người dùng MovieLens đã tham gia MovieLens trong
  • Tập dữ liệu này là tập dữ liệu lớn nhất bao gồm dữ liệu nhân khẩu học.

Mỗi người dùng đã xếp hạng ít nhất 20 phim. Xếp hạng theo gia số toàn sao. Trong dữ liệu nhân khẩu học, các giá trị độ tuổi được chia thành các phạm vi và giá trị độ tuổi thấp nhất cho từng phạm vi được sử dụng trong dữ liệu thay vì các giá trị thực tế.

  • Kích thước tải xuống : 5.64 MiB

  • Kích thước tập dữ liệu : 308.42 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 1.000.209
  • Cấu trúc tính năng :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
xô hóa_user_age tenxơ phao32
phim_genres Trình tự (Nhãn lớp) (Không có,) int64
phim_id tenxơ sợi dây
phim_title tenxơ sợi dây
dấu thời gian tenxơ int64
user_gender tenxơ bool
tên người dùng tenxơ sợi dây
user_occupation_label LớpNhãn int64
user_occupation_text tenxơ sợi dây
Đánh giá của người dùng tenxơ phao32
user_zip_code tenxơ sợi dây

ống kính phim/1m-phim

  • Mô tả cấu hình : Tập dữ liệu này chứa dữ liệu của khoảng 3.900 phim được xếp hạng trong tập dữ liệu 1m.

  • Kích thước tải xuống : 5.64 MiB

  • Kích thước tập dữ liệu : 351.12 KiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 3,883
  • Cấu trúc tính năng :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
phim_genres Trình tự (Nhãn lớp) (Không có,) int64
phim_id tenxơ sợi dây
phim_title tenxơ sợi dây

ống kính phim/20m-xếp hạng

  • Mô tả cấu hình : Tập dữ liệu này chứa 20.000.263 xếp hạng trên 27.278 phim, được tạo bởi 138.493 người dùng trong khoảng thời gian từ ngày 09 tháng 1 năm 1995 đến ngày 31 tháng 3 năm 2015. Tập dữ liệu này được tạo vào ngày 17 tháng 10 năm 2016.

Mỗi người dùng đã xếp hạng ít nhất 20 phim. Xếp hạng theo gia số nửa sao. Tập dữ liệu này không chứa dữ liệu nhân khẩu học.

  • Kích thước tải xuống : 189.50 MiB

  • Kích thước tập dữ liệu : 3.10 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 20.000.263
  • Cấu trúc tính năng :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
phim_genres Trình tự (Nhãn lớp) (Không có,) int64
phim_id tenxơ sợi dây
phim_title tenxơ sợi dây
dấu thời gian tenxơ int64
tên người dùng tenxơ sợi dây
Đánh giá của người dùng tenxơ phao32

ống kính phim/20m-phim

  • Mô tả cấu hình : Tập dữ liệu này chứa dữ liệu của 27.278 phim được xếp hạng trong tập dữ liệu 20m

  • Kích thước tải xuống : 189.50 MiB

  • Kích thước tập dữ liệu : 2.55 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 27,278
  • Cấu trúc tính năng :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
phim_genres Trình tự (Nhãn lớp) (Không có,) int64
phim_id tenxơ sợi dây
phim_title tenxơ sợi dây