Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

movie_lens

  • Deskripsi :

Kumpulan data ini berisi sekumpulan peringkat film dari situs web MovieLens, layanan rekomendasi film. Dataset ini dikumpulkan dan dikelola oleh GroupLens , sebuah kelompok penelitian di University of Minnesota. Ada 5 versi yang disertakan: "25m", "latest-small", "100k", "1m", "20m". Di semua set data, data film dan data rating digabungkan di "movieId". Dataset 25m, dataset kecil-terbaru, dan dataset 20m hanya berisi data film dan data rating. Dataset 1m dan set data 100k berisi data demografis selain film dan data rating.

  • "25m": Ini adalah versi stabil terbaru dari kumpulan data MovieLens. Direkomendasikan untuk tujuan penelitian.
  • "latest-small": Ini adalah bagian kecil dari versi terbaru kumpulan data MovieLens. Itu diubah dan diperbarui dari waktu ke waktu oleh GroupLens.
  • "100k": Ini adalah versi tertua dari kumpulan data MovieLens. Ini adalah kumpulan data kecil dengan data demografis.
  • "1m": Ini adalah kumpulan data MovieLens terbesar yang berisi data demografis.
  • "20m": Ini adalah salah satu set data MovieLens yang paling banyak digunakan dalam makalah akademis bersama dengan set data 1 juta.

Untuk setiap versi, pengguna dapat melihat hanya data film dengan menambahkan akhiran "-film" (mis. "25m-film") atau data peringkat yang digabungkan dengan data film (dan data pengguna dalam kumpulan data 1m dan 100k) dengan menambahkan akhiran "-ringkat" (misalnya "peringkat-25m").

Fitur-fitur di bawah ini disertakan dalam semua versi dengan akhiran "-ratings".

  • "movie_id": pengenal unik dari film berperingkat
  • "movie_title": judul film berperingkat dengan tahun rilis dalam tanda kurung
  • "movie_genres": urutan genre yang memiliki film berperingkat
  • "user_id": pengidentifikasi unik dari pengguna yang membuat peringkat
  • "user_rating": skor nilai pada skala bintang lima
  • "timestamp": stempel waktu rating, diwakili dalam detik sejak tengah malam Waktu Universal Terkoordinasi (UTC) tanggal 1 Januari 1970

Selain itu, versi "Peringkat 100k" dan "Peringkat 1 juta" mencakup fitur demografis berikut.

  • "user_gender": jenis kelamin pengguna yang membuat peringkat; nilai sebenarnya sesuai dengan laki-laki
  • "bucketized_user_age": nilai usia pengguna yang membuat rating, nilai, dan rentang yang sesuai adalah:
    • 1: "Di bawah 18 tahun"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "user_occupation_label": pekerjaan pengguna yang membuat peringkat diwakili oleh label berenkode bilangan bulat; label diproses sebelumnya agar konsisten di berbagai versi
  • "user_occupation_text": pekerjaan pengguna yang membuat peringkat dalam string asli; versi yang berbeda dapat memiliki kumpulan label teks mentah yang berbeda
  • "user_zip_code": kode pos dari pengguna yang membuat peringkat

Selain itu, kumpulan data "100k-rating" juga akan memiliki fitur "raw_user_age" yang merupakan usia yang tepat dari pengguna yang membuat rating

Set data dengan akhiran "-film" hanya berisi fitur "movie_id", "movie_title", dan "movie_genres".

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movie_lens / 25m-rating (konfigurasi default)

  • Deskripsi konfigurasi : Kumpulan data ini berisi 25.000.095 peringkat di 62.423 film, dibuat oleh 162.541 pengguna antara 9 Januari 1995 dan 21 November,
  • Kumpulan data ini adalah versi stabil terbaru dari kumpulan data MovieLens, yang dibuat pada 21 November 2019.

Setiap pengguna telah menilai setidaknya 20 film. Peringkat diberikan dengan penambahan setengah bintang. Set data ini tidak termasuk data demografis.

  • Ukuran unduhan : 249.84 MiB

  • Ukuran set data : 3.89 GiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'train' 25.000.095
  • Fitur :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movie_lens / 25m-film

  • Deskripsi konfigurasi : Dataset ini berisi data 62.423 film yang dinilai dalam set data 25 m.

  • Ukuran unduhan : 249.84 MiB

  • Ukuran set data : 5.71 MiB

  • Cache otomatis ( dokumentasi ): Ya

  • Split :

Membagi Contoh
'train' 62.423
  • Fitur :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movie_lens / rating-kecil-terbaru

  • Deskripsi konfigurasi : Kumpulan data ini berisi 100.836 peringkat di 9.742 film, dibuat oleh 610 pengguna antara 29 Maret 1996 dan 24 September 2018. Kumpulan data ini dibuat pada 26 September 2018 dan merupakan bagian dari versi lengkap terbaru dari kumpulan data MovieLens . Kumpulan data ini berubah dan diperbarui dari waktu ke waktu.

Setiap pengguna telah menilai setidaknya 20 film. Peringkat diberikan dengan penambahan setengah bintang. Set data ini tidak termasuk data demografis.

  • Ukuran download : 955.28 KiB

  • Ukuran 15.82 MiB data : 15.82 MiB

  • Cache otomatis ( dokumentasi ): Ya

  • Split :

Membagi Contoh
'train' 100.836
  • Fitur :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movie_lens / film-kecil-terbaru

  • Deskripsi konfigurasi : Kumpulan data ini berisi data 9.742 film yang dinilai dalam kumpulan data kecil-terbaru.

  • Ukuran download : 955.28 KiB

  • Ukuran 910.64 KiB data : 910.64 KiB

  • Cache otomatis ( dokumentasi ): Ya

  • Split :

Membagi Contoh
'train' 9.742
  • Fitur :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movie_lens / 100k-rating

  • Deskripsi konfigurasi : Kumpulan data ini berisi 100.000 peringkat dari 943 pengguna di 1.682 film. Kumpulan data ini adalah versi tertua dari kumpulan data MovieLens.

Setiap pengguna telah menilai setidaknya 20 film. Peringkat dalam kelipatan bintang utuh. Dataset ini berisi data demografis pengguna selain data tentang film dan rating.

  • Ukuran unduhan : 4.70 MiB

  • Ukuran 32.41 MiB data : 32.41 MiB

  • Cache otomatis ( dokumentasi ): Ya

  • Split :

Membagi Contoh
'train' 100.000
  • Fitur :
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'raw_user_age': tf.float32,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

movie_lens / 100k-film

  • Deskripsi konfigurasi : Kumpulan data ini berisi data dari 1.682 film yang dinilai dalam kumpulan data 100k.

  • Ukuran unduhan : 4.70 MiB

  • Ukuran 150.35 KiB data : 150.35 KiB

  • Cache otomatis ( dokumentasi ): Ya

  • Split :

Membagi Contoh
'train' 1.682
  • Fitur :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movie_lens / 1m-rating

  • Deskripsi konfigurasi : Kumpulan data ini berisi 1.000.209 peringkat anonim dari sekitar 3.900 film yang dibuat oleh 6.040 pengguna MovieLens yang bergabung dengan MovieLens di
  • Kumpulan data ini merupakan kumpulan data terbesar yang menyertakan data demografis.

Setiap pengguna telah menilai setidaknya 20 film. Peringkat menggunakan peningkatan bintang utuh. Dalam data demografis, nilai usia dibagi ke dalam rentang dan nilai usia terendah untuk setiap rentang digunakan dalam data, bukan nilai sebenarnya.

  • Ukuran unduhan : 5.64 MiB

  • Ukuran 308.42 MiB data : 308.42 MiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'train' 1.000.209
  • Fitur :
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

movie_lens / 1m-film

  • Deskripsi konfigurasi : Kumpulan data ini berisi data dari sekitar 3.900 film yang dinilai dalam kumpulan data 1 m.

  • Ukuran unduhan : 5.64 MiB

  • Ukuran 351.12 KiB data : 351.12 KiB

  • Cache otomatis ( dokumentasi ): Ya

  • Split :

Membagi Contoh
'train' 3.883
  • Fitur :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

movie_lens / 20m-rating

  • Deskripsi konfigurasi : Kumpulan data ini berisi 20.000.263 penilaian di 27.278 film, dibuat oleh 138.493 pengguna antara 9 Januari 1995 dan 31 Maret 2015. Kumpulan data ini dibuat pada 17 Oktober 2016.

Setiap pengguna telah menilai setidaknya 20 film. Peringkat diberikan dengan penambahan setengah bintang. Kumpulan data ini tidak berisi data demografis.

  • Ukuran unduhan : 189.50 MiB

  • Ukuran set data : 3.10 GiB

  • Cache otomatis ( dokumentasi ): Tidak

  • Split :

Membagi Contoh
'train' 20.000.263
  • Fitur :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

movie_lens / 20m-film

  • Deskripsi konfigurasi : Kumpulan data ini berisi data dari 27.278 film yang dinilai dalam kumpulan data 20 m

  • Ukuran unduhan : 189.50 MiB

  • Ukuran set data : 2.55 MiB

  • Cache otomatis ( dokumentasi ): Ya

  • Split :

Membagi Contoh
'train' 27.278
  • Fitur :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})