무비렌즈

  • 설명 :

이 데이터 세트에는 영화 추천 서비스인 MovieLens 웹사이트의 영화 등급 세트가 포함되어 있습니다. 이 데이터 세트는 미네소타 대학의 연구 그룹인 GroupLens 에서 수집 및 유지 관리했습니다. "25m", "latest-small", "100k", "1m", "20m"의 5가지 버전이 포함되어 있습니다. 모든 데이터 세트에서 영화 데이터와 등급 데이터는 "movieId"에 결합됩니다. 25m 데이터 세트, 최신 작은 데이터 세트 및 20m 데이터 세트에는 영화 데이터 및 등급 데이터만 포함됩니다. 1m 데이터 세트와 100k 데이터 세트에는 영화 및 등급 데이터 외에 인구 통계 데이터가 포함되어 있습니다.

  • "25m": 이것은 MovieLens 데이터 세트의 최신 안정 버전입니다. 연구 목적으로 권장됩니다.
  • "latest-small": MovieLens 데이터 세트 최신 버전의 작은 하위 집합입니다. 시간이 지남에 따라 GroupLens에 의해 변경되고 업데이트됩니다.
  • "100k": 이것은 MovieLens 데이터 세트의 가장 오래된 버전입니다. 인구 통계 데이터가 있는 작은 데이터 세트입니다.
  • "1m": 인구 통계 데이터를 포함하는 가장 큰 MovieLens 데이터 세트입니다.
  • "20m": 1m 데이터 세트와 함께 학술 논문에서 가장 많이 사용되는 MovieLens 데이터 세트 중 하나입니다.

각 버전에 대해 사용자는 "-movies" 접미사(예: "25m-movies")를 추가하여 영화 데이터만 보거나 영화 데이터와 결합된 등급 데이터(및 1m 및 100k 데이터 세트의 사용자 데이터)를 추가하여 볼 수 있습니다. "-등급" 접미사(예: "25m-등급").

아래 기능은 "-ratings" 접미사가 있는 모든 버전에 포함되어 있습니다.

  • "movie_id": 평가된 영화의 고유 식별자
  • "movie_title": 괄호 안에 개봉 연도가 포함된 평가 영화의 제목
  • "movie_genres": 평가된 영화가 속하는 일련의 장르
  • "user_id": 등급을 매긴 사용자의 고유 식별자
  • "user_rating": 별점 5개 등급 점수
  • "timestamp": 1970년 1월 1일 UTC(Coordinated Universal Time) 자정 이후 초 단위로 표시되는 등급의 타임스탬프

"100k-ratings" 및 "1m-ratings" 버전에는 다음과 같은 인구통계학적 특징이 추가로 포함됩니다.

  • "user_gender": 등급을 매긴 사용자의 성별; 참값은 남성에 해당합니다.
  • "bucketized_user_age": 등급을 매긴 사용자의 버킷화된 연령 값, 값 및 해당 범위는 다음과 같습니다.
    • 1: "18세 미만"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "user_occupation_label": 정수로 인코딩된 레이블로 표시된 등급을 만든 사용자의 직업 레이블은 여러 버전에서 일관되도록 전처리됩니다.
  • "user_occupation_text": 원래 문자열에서 등급을 매긴 사용자의 직업 다른 버전은 다른 원시 텍스트 레이블 세트를 가질 수 있습니다.
  • "user_zip_code": 등급을 매긴 사용자의 우편번호

또한 "100k-ratings" 데이터 세트에는 평가를 만든 사용자의 정확한 연령인 "raw_user_age" 기능도 있습니다.

"-movies" 접미사가 있는 데이터 세트에는 "movie_id", "movie_title" 및 "movie_genres" 기능만 포함됩니다.

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens/25m-ratings(기본 구성)

  • 구성 설명 : 이 데이터 세트에는 1995년 1월 9일부터 11월 21일 사이에 162,541명의 사용자가 만든 62,423편의 영화에 대한 25,000,095개의 평가가 포함되어 있습니다.
  • 이 데이터 세트는 2019년 11월 21일에 생성된 MovieLens 데이터 세트의 최신 안정 버전입니다.

각 사용자는 최소 20편의 영화를 평가했습니다. 등급은 별 반개 단위로 표시됩니다. 이 데이터 세트에는 인구 통계 데이터가 포함되어 있지 않습니다.

  • 다운로드 크기 : 249.84 MiB

  • 데이터세트 크기 : 3.89 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 25,000,095
  • 기능 구조 :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
movie_genres 시퀀스(클래스 레이블) (없음,) int64
movie_id 텐서
영화 제목 텐서
타임스탬프 텐서 int64
user_id 텐서
사용자 평가 텐서 float32

영화 렌즈/25m 영화

  • 구성 설명 : 이 데이터 세트에는 25m 데이터 세트에서 평가된 62,423개의 영화 데이터가 포함되어 있습니다.

  • 다운로드 크기 : 249.84 MiB

  • 데이터 세트 크기 : 5.71 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 62,423
  • 기능 구조 :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
movie_genres 시퀀스(클래스 레이블) (없음,) int64
movie_id 텐서
영화 제목 텐서

movielens/latest-small-ratings

  • 구성 설명 : 이 데이터 세트에는 1996년 3월 29일부터 2018년 9월 24일 사이에 610명의 사용자가 만든 9,742편의 영화에 대한 100,836개의 등급이 포함되어 있습니다. 이 데이터 세트는 2018년 9월 26일에 생성되었으며 MovieLens 데이터 세트의 전체 최신 버전의 하위 집합입니다. . 이 데이터 세트는 시간이 지남에 따라 변경 및 업데이트됩니다.

각 사용자는 최소 20편의 영화를 평가했습니다. 등급은 별 반개 단위로 표시됩니다. 이 데이터 세트에는 인구 통계 데이터가 포함되어 있지 않습니다.

  • 다운로드 크기 : 955.28 KiB

  • 데이터 세트 크기 : 15.82 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 100,836
  • 기능 구조 :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
movie_genres 시퀀스(클래스 레이블) (없음,) int64
movie_id 텐서
영화 제목 텐서
타임스탬프 텐서 int64
user_id 텐서
사용자 평가 텐서 float32

movielens/최신 작은 영화

  • 구성 설명 : 이 데이터 세트에는 최신 소규모 데이터 세트에서 평가된 9,742편의 영화 데이터가 포함되어 있습니다.

  • 다운로드 크기 : 955.28 KiB

  • 데이터 세트 크기 : 910.64 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 9,742
  • 기능 구조 :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
movie_genres 시퀀스(클래스 레이블) (없음,) int64
movie_id 텐서
영화 제목 텐서

무비렌즈/100k-등급

  • 구성 설명 : 이 데이터 세트에는 1,682개의 영화에 대한 943명의 사용자의 100,000개 평가가 포함되어 있습니다. 이 데이터 세트는 MovieLens 데이터 세트의 가장 오래된 버전입니다.

각 사용자는 최소 20편의 영화를 평가했습니다. 등급은 전체 별 단위로 증가합니다. 이 데이터 세트에는 영화 및 등급 데이터 외에도 사용자의 인구 통계 데이터가 포함되어 있습니다.

  • 다운로드 크기 : 4.70 MiB

  • 데이터 세트 크기 : 32.41 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 100,000
  • 기능 구조 :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
bucketized_user_age 텐서 float32
movie_genres 시퀀스(클래스 레이블) (없음,) int64
movie_id 텐서
영화 제목 텐서
raw_user_age 텐서 float32
타임스탬프 텐서 int64
user_gender 텐서 부울
user_id 텐서
user_occupation_label 클래스 레이블 int64
user_occupation_text 텐서
사용자 평가 텐서 float32
user_zip_code 텐서

무비 렌즈/10만 영화

  • 구성 설명 : 이 데이터 세트에는 100k 데이터 세트에서 평가된 1,682개의 영화 데이터가 포함되어 있습니다.

  • 다운로드 크기 : 4.70 MiB

  • 데이터 세트 크기 : 150.35 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 1,682
  • 기능 구조 :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
movie_genres 시퀀스(클래스 레이블) (없음,) int64
movie_id 텐서
영화 제목 텐서

무비렌즈/1m 등급

  • 구성 설명 : 이 데이터 세트에는 MovieLens에 가입한 6,040명의 MovieLens 사용자가 만든 약 3,900편의 영화에 대한 1,000,209개의 익명 평가가 포함되어 있습니다.
  • 이 데이터 세트는 인구 통계 데이터를 포함하는 가장 큰 데이터 세트입니다.

각 사용자는 최소 20편의 영화를 평가했습니다. 등급은 전체 별 단위로 증가합니다. 인구통계학적 데이터에서 연령 값을 범위로 나누어 각 범위의 최저 연령 값을 실제 값 대신 데이터에 사용합니다.

  • 다운로드 크기 : 5.64 MiB

  • 데이터 세트 크기 : 308.42 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 1,000,209
  • 기능 구조 :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
bucketized_user_age 텐서 float32
movie_genres 시퀀스(클래스 레이블) (없음,) int64
movie_id 텐서
영화 제목 텐서
타임스탬프 텐서 int64
user_gender 텐서 부울
user_id 텐서
user_occupation_label 클래스 레이블 int64
user_occupation_text 텐서
사용자 평가 텐서 float32
user_zip_code 텐서

영화 렌즈/1m 영화

  • 구성 설명 : 이 데이터 세트에는 1m 데이터 세트에서 평가된 약 3,900편의 영화 데이터가 포함되어 있습니다.

  • 다운로드 크기 : 5.64 MiB

  • 데이터 세트 크기 : 351.12 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 3,883
  • 기능 구조 :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
movie_genres 시퀀스(클래스 레이블) (없음,) int64
movie_id 텐서
영화 제목 텐서

무비렌즈/20m 등급

  • 구성 설명 : 이 데이터 세트에는 1995년 1월 9일부터 2015년 3월 31일 사이에 138,493명의 사용자가 만든 27,278편의 영화에 대한 20,000,263개의 평가가 포함되어 있습니다. 이 데이터 세트는 2016년 10월 17일에 생성되었습니다.

각 사용자는 최소 20편의 영화를 평가했습니다. 등급은 별 반개 단위로 표시됩니다. 이 데이터 세트에는 인구 통계 데이터가 포함되어 있지 않습니다.

  • 다운로드 크기 : 189.50 MiB

  • 데이터세트 크기 : 3.10 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 20,000,263
  • 기능 구조 :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
movie_genres 시퀀스(클래스 레이블) (없음,) int64
movie_id 텐서
영화 제목 텐서
타임스탬프 텐서 int64
user_id 텐서
사용자 평가 텐서 float32

무비렌즈/20m-영화

  • 구성 설명 : 이 데이터 세트에는 20m 데이터 세트에서 평가된 27,278개의 영화 데이터가 포함되어 있습니다.

  • 다운로드 크기 : 189.50 MiB

  • 데이터 세트 크기 : 2.55 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 27,278
  • 기능 구조 :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
movie_genres 시퀀스(클래스 레이블) (없음,) int64
movie_id 텐서
영화 제목 텐서