lensa film

  • Deskripsi :

Kumpulan data ini berisi kumpulan peringkat film dari situs web MovieLens, layanan rekomendasi film. Kumpulan data ini dikumpulkan dan dikelola oleh GroupLens , sebuah kelompok riset di University of Minnesota. Ada 5 versi yang disertakan: "25m", "terbaru-kecil", "100k", "1m", "20m". Di semua kumpulan data, data film dan data peringkat digabungkan di "movieId". Dataset 25m, dataset terbaru-kecil, dan dataset 20m hanya berisi data film dan data rating. Set data 1 juta dan set data 100 ribu berisi data demografi selain data film dan rating.

  • "25m": Ini adalah versi stabil terbaru dari kumpulan data MovieLens. Direkomendasikan untuk tujuan penelitian.
  • "terbaru-kecil": Ini adalah subset kecil dari versi terbaru dari set data MovieLens. Itu diubah dan diperbarui dari waktu ke waktu oleh GroupLens.
  • "100k": Ini adalah versi tertua dari kumpulan data MovieLens. Ini adalah kumpulan data kecil dengan data demografis.
  • "1m": Ini adalah kumpulan data MovieLens terbesar yang berisi data demografis.
  • "20m": Ini adalah salah satu set data MovieLens yang paling banyak digunakan dalam makalah akademik bersama dengan set data 1m.

Untuk setiap versi, pengguna hanya dapat melihat data film dengan menambahkan akhiran "-movies" (mis. "25m-movies") atau data peringkat yang digabungkan dengan data film (dan data pengguna dalam kumpulan data 1m dan 100k) dengan menambahkan akhiran "-ratings" (misalnya "25m-ratings").

Fitur di bawah disertakan di semua versi dengan akhiran "-ratings".

  • "movie_id": pengidentifikasi unik dari film yang diperingkat
  • "movie_title": judul film yang diberi rating dengan tahun rilis dalam tanda kurung
  • "movie_genres": urutan genre yang dimiliki oleh film yang diberi rating
  • "user_id": pengidentifikasi unik dari pengguna yang memberi peringkat
  • "user_rating": skor peringkat pada skala bintang lima
  • "timestamp": stempel waktu peringkat, dinyatakan dalam detik sejak tengah malam Waktu Universal Terkoordinasi (UTC) 1 Januari 1970

Versi "100k-ratings" dan "1m-ratings" juga menyertakan fitur demografis berikut.

  • "user_gender": jenis kelamin pengguna yang memberi peringkat; nilai sebenarnya sesuai dengan laki-laki
  • "bucketized_user_age": nilai usia dalam keranjang dari pengguna yang membuat peringkat, nilai, dan rentang yang sesuai adalah:
    • 1: "Di bawah 18 tahun"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "user_occupation_label": pekerjaan pengguna yang membuat peringkat diwakili oleh label berkode bilangan bulat; label diproses sebelumnya agar konsisten di berbagai versi
  • "user_occupation_text": pekerjaan pengguna yang membuat peringkat di string asli; versi yang berbeda dapat memiliki kumpulan label teks mentah yang berbeda
  • "user_zip_code": kode pos pengguna yang memberi peringkat

Selain itu, dataset "100k-ratings" juga akan memiliki fitur "raw_user_age" yang merupakan usia persis dari pengguna yang membuat rating

Kumpulan data dengan akhiran "-movies" hanya berisi fitur "movie_id", "movie_title", dan "movie_genres".

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens/25m-ratings (konfigurasi default)

  • Deskripsi konfigurasi : Kumpulan data ini berisi 25.000.095 peringkat di 62.423 film, dibuat oleh 162.541 pengguna antara 09 Januari 1995 dan 21 November,
  • Kumpulan data ini adalah versi stabil terbaru dari kumpulan data MovieLens, yang dihasilkan pada 21 November 2019.

Setiap pengguna telah menilai setidaknya 20 film. Peringkat dalam peningkatan setengah bintang. Dataset ini tidak termasuk data demografis.

  • Ukuran unduhan : 249.84 MiB

  • Ukuran dataset : 3.89 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 25.000.095
  • Struktur fitur :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
movie_genres Urutan(Label Kelas) (Tidak ada,) int64
movie_id Tensor rangkaian
judul film Tensor rangkaian
cap waktu Tensor int64
identitas pengguna Tensor rangkaian
peringkat_pengguna Tensor float32

lensa film/25m-film

  • Deskripsi konfigurasi : Kumpulan data ini berisi data 62.423 film yang diperingkat dalam kumpulan data 25m.

  • Ukuran unduhan : 249.84 MiB

  • Ukuran dataset : 5.71 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 62.423
  • Struktur fitur :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
movie_genres Urutan(Label Kelas) (Tidak ada,) int64
movie_id Tensor rangkaian
judul film Tensor rangkaian

movielens/last-small-ratings

  • Deskripsi konfigurasi : Kumpulan data ini berisi 100.836 peringkat di 9.742 film, dibuat oleh 610 pengguna antara 29 Maret 1996 dan 24 September 2018. Kumpulan data ini dihasilkan pada 26 September 2018 dan merupakan subset dari versi lengkap terbaru dari kumpulan data MovieLens . Dataset ini berubah dan diperbarui dari waktu ke waktu.

Setiap pengguna telah menilai setidaknya 20 film. Peringkat dalam peningkatan setengah bintang. Dataset ini tidak termasuk data demografis.

  • Ukuran unduhan : 955.28 KiB

  • Ukuran dataset : 15.82 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 100.836
  • Struktur fitur :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
movie_genres Urutan(Label Kelas) (Tidak ada,) int64
movie_id Tensor rangkaian
judul film Tensor rangkaian
cap waktu Tensor int64
identitas pengguna Tensor rangkaian
peringkat_pengguna Tensor float32

movielens/film-kecil-terbaru

  • Deskripsi konfigurasi : Kumpulan data ini berisi data dari 9.742 film yang diperingkat dalam kumpulan data terbaru-kecil.

  • Ukuran unduhan : 955.28 KiB

  • Ukuran dataset : 910.64 KiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 9.742
  • Struktur fitur :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
movie_genres Urutan(Label Kelas) (Tidak ada,) int64
movie_id Tensor rangkaian
judul film Tensor rangkaian

movielens/100k-rating

  • Deskripsi konfigurasi : Kumpulan data ini berisi 100.000 peringkat dari 943 pengguna di 1.682 film. Kumpulan data ini adalah versi tertua dari kumpulan data MovieLens.

Setiap pengguna telah menilai setidaknya 20 film. Peringkat dalam peningkatan seluruh bintang. Kumpulan data ini berisi data demografis pengguna selain data tentang film dan rating.

  • Ukuran unduhan : 4.70 MiB

  • Ukuran dataset : 32.41 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 100.000
  • Struktur fitur :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
bucketized_user_age Tensor float32
movie_genres Urutan(Label Kelas) (Tidak ada,) int64
movie_id Tensor rangkaian
judul film Tensor rangkaian
raw_user_age Tensor float32
cap waktu Tensor int64
user_gender Tensor bool
identitas pengguna Tensor rangkaian
user_occupation_label LabelKelas int64
pengguna_pekerjaan_teks Tensor rangkaian
peringkat_pengguna Tensor float32
user_zip_code Tensor rangkaian

movielens/100k-film

  • Deskripsi konfigurasi : Kumpulan data ini berisi data dari 1.682 film yang diperingkat dalam kumpulan data 100k.

  • Ukuran unduhan : 4.70 MiB

  • Ukuran dataset : 150.35 KiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 1.682
  • Struktur fitur :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
movie_genres Urutan(Label Kelas) (Tidak ada,) int64
movie_id Tensor rangkaian
judul film Tensor rangkaian

movielens/1m-ratings

  • Deskripsi konfigurasi : Kumpulan data ini berisi 1.000.209 peringkat anonim dari sekitar 3.900 film yang dibuat oleh 6.040 pengguna MovieLens yang bergabung dengan MovieLens di
  • Dataset ini merupakan dataset terbesar yang mencakup data kependudukan.

Setiap pengguna telah menilai setidaknya 20 film. Peringkat dalam peningkatan seluruh bintang. Dalam data demografis, nilai usia dibagi menjadi rentang dan nilai usia terendah untuk setiap rentang digunakan dalam data, bukan nilai sebenarnya.

  • Ukuran unduhan : 5.64 MiB

  • Ukuran dataset : 308.42 MiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 1.000.209
  • Struktur fitur :
FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
bucketized_user_age Tensor float32
movie_genres Urutan(Label Kelas) (Tidak ada,) int64
movie_id Tensor rangkaian
judul film Tensor rangkaian
cap waktu Tensor int64
user_gender Tensor bool
identitas pengguna Tensor rangkaian
user_occupation_label LabelKelas int64
pengguna_pekerjaan_teks Tensor rangkaian
peringkat_pengguna Tensor float32
user_zip_code Tensor rangkaian

movielens/1m-film

  • Deskripsi konfigurasi : Kumpulan data ini berisi data sekitar 3.900 film yang diperingkat dalam kumpulan data 1m.

  • Ukuran unduhan : 5.64 MiB

  • Ukuran dataset : 351.12 KiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 3.883
  • Struktur fitur :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
movie_genres Urutan(Label Kelas) (Tidak ada,) int64
movie_id Tensor rangkaian
judul film Tensor rangkaian

movielens/20m-ratings

  • Deskripsi konfigurasi : Kumpulan data ini berisi 20.000.263 peringkat di 27.278 film, dibuat oleh 138.493 pengguna antara 09 Januari 1995 dan 31 Maret 2015. Kumpulan data ini dibuat pada 17 Oktober 2016.

Setiap pengguna telah menilai setidaknya 20 film. Peringkat dalam peningkatan setengah bintang. Kumpulan data ini tidak berisi data demografis.

  • Ukuran unduhan : 189.50 MiB

  • Ukuran dataset : 3.10 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'train' 20.000.263
  • Struktur fitur :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
movie_genres Urutan(Label Kelas) (Tidak ada,) int64
movie_id Tensor rangkaian
judul film Tensor rangkaian
cap waktu Tensor int64
identitas pengguna Tensor rangkaian
peringkat_pengguna Tensor float32

lensa film/20m-film

  • Deskripsi konfigurasi : Kumpulan data ini berisi data dari 27.278 film yang diperingkat dalam kumpulan data 20m

  • Ukuran unduhan : 189.50 MiB

  • Ukuran dataset : 2.55 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'train' 27.278
  • Struktur fitur :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
movie_genres Urutan(Label Kelas) (Tidak ada,) int64
movie_id Tensor rangkaian
judul film Tensor rangkaian