TFDS sekarang mendukung format Croissant 🥐 ! Baca dokumentasi untuk mengetahui lebih lanjut.

Halaman ini diterjemahkan oleh Cloud Translation API.

lensa film

Deskripsi :

Kumpulan data ini berisi kumpulan peringkat film dari situs web MovieLens, layanan rekomendasi film. Kumpulan data ini dikumpulkan dan dikelola oleh GroupLens , sebuah kelompok riset di University of Minnesota. Ada 5 versi yang disertakan: "25m", "terbaru-kecil", "100k", "1m", "20m". Di semua kumpulan data, data film dan data peringkat digabungkan di "movieId". Dataset 25m, dataset terbaru-kecil, dan dataset 20m hanya berisi data film dan data rating. Set data 1 juta dan set data 100 ribu berisi data demografi selain data film dan rating.

"25m": Ini adalah versi stabil terbaru dari kumpulan data MovieLens. Direkomendasikan untuk tujuan penelitian.
"terbaru-kecil": Ini adalah subset kecil dari versi terbaru dari set data MovieLens. Itu diubah dan diperbarui dari waktu ke waktu oleh GroupLens.
"100k": Ini adalah versi tertua dari kumpulan data MovieLens. Ini adalah kumpulan data kecil dengan data demografis.
"1m": Ini adalah kumpulan data MovieLens terbesar yang berisi data demografis.
"20m": Ini adalah salah satu set data MovieLens yang paling banyak digunakan dalam makalah akademik bersama dengan set data 1m.

Untuk setiap versi, pengguna hanya dapat melihat data film dengan menambahkan akhiran "-movies" (mis. "25m-movies") atau data peringkat yang digabungkan dengan data film (dan data pengguna dalam kumpulan data 1m dan 100k) dengan menambahkan akhiran "-ratings" (misalnya "25m-ratings").

Fitur di bawah disertakan di semua versi dengan akhiran "-ratings".

"movie_id": pengidentifikasi unik dari film yang diperingkat
"movie_title": judul film yang diberi rating dengan tahun rilis dalam tanda kurung
"movie_genres": urutan genre yang dimiliki oleh film yang diberi rating
"user_id": pengidentifikasi unik dari pengguna yang memberi peringkat
"user_rating": skor peringkat pada skala bintang lima
"timestamp": stempel waktu peringkat, dinyatakan dalam detik sejak tengah malam Waktu Universal Terkoordinasi (UTC) 1 Januari 1970

Versi "100k-ratings" dan "1m-ratings" juga menyertakan fitur demografis berikut.

"user_gender": jenis kelamin pengguna yang memberi peringkat; nilai sebenarnya sesuai dengan laki-laki
"bucketized_user_age": nilai usia dalam keranjang dari pengguna yang membuat peringkat, nilai, dan rentang yang sesuai adalah:
- 1: "Di bawah 18 tahun"
- 18: "18-24"
- 25: "25-34"
- 35: "35-44"
- 45: "45-49"
- 50: "50-55"
- 56: "56+"
"user_occupation_label": pekerjaan pengguna yang membuat peringkat diwakili oleh label berkode bilangan bulat; label diproses sebelumnya agar konsisten di berbagai versi
"user_occupation_text": pekerjaan pengguna yang membuat peringkat di string asli; versi yang berbeda dapat memiliki kumpulan label teks mentah yang berbeda
"user_zip_code": kode pos pengguna yang memberi peringkat

Selain itu, dataset "100k-ratings" juga akan memiliki fitur "raw_user_age" yang merupakan usia persis dari pengguna yang membuat rating

Kumpulan data dengan akhiran "-movies" hanya berisi fitur "movie_id", "movie_title", dan "movie_genres".

Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://grouplens.org/datasets/movielens/
Kode sumber : tfds.structured.Movielens
Versi :
- 0.1.1 (default): Tidak ada catatan rilis.
Kunci yang diawasi (Lihat as_supervised doc ): None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movielens/25m-ratings (konfigurasi default)

Deskripsi konfigurasi : Kumpulan data ini berisi 25.000.095 peringkat di 62.423 film, dibuat oleh 162.541 pengguna antara 09 Januari 1995 dan 21 November,
Kumpulan data ini adalah versi stabil terbaru dari kumpulan data MovieLens, yang dihasilkan pada 21 November 2019.

Setiap pengguna telah menilai setidaknya 20 film. Peringkat dalam peningkatan setengah bintang. Dataset ini tidak termasuk data demografis.

Ukuran unduhan : 249.84 MiB
Ukuran dataset : 3.89 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	25.000.095

Struktur fitur :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
movie_genres	Urutan(Label Kelas)	(Tidak ada,)	int64
movie_id	Tensor		rangkaian
judul film	Tensor		rangkaian
cap waktu	Tensor		int64
identitas pengguna	Tensor		rangkaian
peringkat_pengguna	Tensor		float32

Contoh ( tfds.as_dataframe ):

lensa film/25m-film

Deskripsi konfigurasi : Kumpulan data ini berisi data 62.423 film yang diperingkat dalam kumpulan data 25m.
Ukuran unduhan : 249.84 MiB
Ukuran dataset : 5.71 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	62.423

Struktur fitur :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
movie_genres	Urutan(Label Kelas)	(Tidak ada,)	int64
movie_id	Tensor		rangkaian
judul film	Tensor		rangkaian

Contoh ( tfds.as_dataframe ):

movielens/last-small-ratings

Deskripsi konfigurasi : Kumpulan data ini berisi 100.836 peringkat di 9.742 film, dibuat oleh 610 pengguna antara 29 Maret 1996 dan 24 September 2018. Kumpulan data ini dihasilkan pada 26 September 2018 dan merupakan subset dari versi lengkap terbaru dari kumpulan data MovieLens . Dataset ini berubah dan diperbarui dari waktu ke waktu.

Setiap pengguna telah menilai setidaknya 20 film. Peringkat dalam peningkatan setengah bintang. Dataset ini tidak termasuk data demografis.

Ukuran unduhan : 955.28 KiB
Ukuran dataset : 15.82 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	100.836

Struktur fitur :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
movie_genres	Urutan(Label Kelas)	(Tidak ada,)	int64
movie_id	Tensor		rangkaian
judul film	Tensor		rangkaian
cap waktu	Tensor		int64
identitas pengguna	Tensor		rangkaian
peringkat_pengguna	Tensor		float32

Contoh ( tfds.as_dataframe ):

movielens/film-kecil-terbaru

Deskripsi konfigurasi : Kumpulan data ini berisi data dari 9.742 film yang diperingkat dalam kumpulan data terbaru-kecil.
Ukuran unduhan : 955.28 KiB
Ukuran dataset : 910.64 KiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	9.742

Struktur fitur :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
movie_genres	Urutan(Label Kelas)	(Tidak ada,)	int64
movie_id	Tensor		rangkaian
judul film	Tensor		rangkaian

Contoh ( tfds.as_dataframe ):

movielens/100k-rating

Deskripsi konfigurasi : Kumpulan data ini berisi 100.000 peringkat dari 943 pengguna di 1.682 film. Kumpulan data ini adalah versi tertua dari kumpulan data MovieLens.

Setiap pengguna telah menilai setidaknya 20 film. Peringkat dalam peningkatan seluruh bintang. Kumpulan data ini berisi data demografis pengguna selain data tentang film dan rating.

Ukuran unduhan : 4.70 MiB
Ukuran dataset : 32.41 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	100.000

Struktur fitur :

FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'raw_user_age': float32,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
bucketized_user_age	Tensor		float32
movie_genres	Urutan(Label Kelas)	(Tidak ada,)	int64
movie_id	Tensor		rangkaian
judul film	Tensor		rangkaian
raw_user_age	Tensor		float32
cap waktu	Tensor		int64
user_gender	Tensor		bool
identitas pengguna	Tensor		rangkaian
user_occupation_label	LabelKelas		int64
pengguna_pekerjaan_teks	Tensor		rangkaian
peringkat_pengguna	Tensor		float32
user_zip_code	Tensor		rangkaian

Contoh ( tfds.as_dataframe ):

movielens/100k-film

Deskripsi konfigurasi : Kumpulan data ini berisi data dari 1.682 film yang diperingkat dalam kumpulan data 100k.
Ukuran unduhan : 4.70 MiB
Ukuran dataset : 150.35 KiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	1.682

Struktur fitur :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
movie_genres	Urutan(Label Kelas)	(Tidak ada,)	int64
movie_id	Tensor		rangkaian
judul film	Tensor		rangkaian

Contoh ( tfds.as_dataframe ):

movielens/1m-ratings

Deskripsi konfigurasi : Kumpulan data ini berisi 1.000.209 peringkat anonim dari sekitar 3.900 film yang dibuat oleh 6.040 pengguna MovieLens yang bergabung dengan MovieLens di
Dataset ini merupakan dataset terbesar yang mencakup data kependudukan.

Setiap pengguna telah menilai setidaknya 20 film. Peringkat dalam peningkatan seluruh bintang. Dalam data demografis, nilai usia dibagi menjadi rentang dan nilai usia terendah untuk setiap rentang digunakan dalam data, bukan nilai sebenarnya.

Ukuran unduhan : 5.64 MiB
Ukuran dataset : 308.42 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	1.000.209

Struktur fitur :

FeaturesDict({
    'bucketized_user_age': float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_gender': bool,
    'user_id': string,
    'user_occupation_label': ClassLabel(shape=(), dtype=int64, num_classes=22),
    'user_occupation_text': string,
    'user_rating': float32,
    'user_zip_code': string,
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
bucketized_user_age	Tensor		float32
movie_genres	Urutan(Label Kelas)	(Tidak ada,)	int64
movie_id	Tensor		rangkaian
judul film	Tensor		rangkaian
cap waktu	Tensor		int64
user_gender	Tensor		bool
identitas pengguna	Tensor		rangkaian
user_occupation_label	LabelKelas		int64
pengguna_pekerjaan_teks	Tensor		rangkaian
peringkat_pengguna	Tensor		float32
user_zip_code	Tensor		rangkaian

Contoh ( tfds.as_dataframe ):

movielens/1m-film

Deskripsi konfigurasi : Kumpulan data ini berisi data sekitar 3.900 film yang diperingkat dalam kumpulan data 1m.
Ukuran unduhan : 5.64 MiB
Ukuran dataset : 351.12 KiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	3.883

Struktur fitur :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
movie_genres	Urutan(Label Kelas)	(Tidak ada,)	int64
movie_id	Tensor		rangkaian
judul film	Tensor		rangkaian

Contoh ( tfds.as_dataframe ):

movielens/20m-ratings

Deskripsi konfigurasi : Kumpulan data ini berisi 20.000.263 peringkat di 27.278 film, dibuat oleh 138.493 pengguna antara 09 Januari 1995 dan 31 Maret 2015. Kumpulan data ini dibuat pada 17 Oktober 2016.

Setiap pengguna telah menilai setidaknya 20 film. Peringkat dalam peningkatan setengah bintang. Kumpulan data ini tidak berisi data demografis.

Ukuran unduhan : 189.50 MiB
Ukuran dataset : 3.10 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'train'`	20.000.263

Struktur fitur :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
    'timestamp': int64,
    'user_id': string,
    'user_rating': float32,
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
movie_genres	Urutan(Label Kelas)	(Tidak ada,)	int64
movie_id	Tensor		rangkaian
judul film	Tensor		rangkaian
cap waktu	Tensor		int64
identitas pengguna	Tensor		rangkaian
peringkat_pengguna	Tensor		float32

Contoh ( tfds.as_dataframe ):

lensa film/20m-film

Deskripsi konfigurasi : Kumpulan data ini berisi data dari 27.278 film yang diperingkat dalam kumpulan data 20m
Ukuran unduhan : 189.50 MiB
Ukuran dataset : 2.55 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	27.278

Struktur fitur :

FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=21)),
    'movie_id': string,
    'movie_title': string,
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
movie_genres	Urutan(Label Kelas)	(Tidak ada,)	int64
movie_id	Tensor		rangkaian
judul film	Tensor		rangkaian

Contoh ( tfds.as_dataframe ):

lensa film Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.