film_lens

  • Açıklama :

Bu veri kümesi, bir film tavsiye hizmeti olan MovieLens web sitesinden bir dizi film derecelendirmesi içerir. Bu veri seti, Minnesota Üniversitesi'ndeki bir araştırma grubu olan GroupLens tarafından toplandı ve sürdürüldü. Dahil edilen 5 versiyon vardır: "25m", "en son-küçük", "100k", "1m", "20m". Tüm veri kümelerinde, film verileri ve derecelendirme verileri "movieId" üzerinde birleştirilir. 25m veri kümesi, en son-küçük veri kümesi ve 20m veri kümesi yalnızca film verilerini ve derecelendirme verilerini içerir. 1m veri seti ve 100.000 veri seti, film ve derecelendirme verilerine ek olarak demografik verileri içerir.

  • "25m": Bu, MovieLens veri kümesinin en son kararlı sürümüdür. Araştırma amaçlı tavsiye edilir.
  • "en son-küçük": Bu, MovieLens veri kümesinin en son sürümünün küçük bir alt kümesidir. GroupLens tarafından zaman içinde değiştirilir ve güncellenir.
  • "100k": Bu, MovieLens veri kümelerinin en eski sürümüdür. Demografik veriler içeren küçük bir veri kümesidir.
  • "1m": Bu, demografik verileri içeren en büyük MovieLens veri kümesidir.
  • "20m": Bu, 1m veri kümesiyle birlikte akademik makalelerde en çok kullanılan MovieLens veri kümelerinden biridir.

Her sürüm için, kullanıcılar ya "-movies" son ekini (örn. "25m-movies") ekleyerek yalnızca film verilerini veya film verileriyle (ve 1m ve 100k veri kümelerindeki kullanıcı verilerini) birleştirilen derecelendirme verilerini görüntüleyebilir. "-ratings" son eki (örn. "25m-ratings").

Aşağıdaki özellikler, "-ratings" son ekine sahip tüm sürümlerde bulunur.

  • "movie_id": derecelendirilen filmin benzersiz tanımlayıcısı
  • "movie_title": parantez içinde yayınlanma yılı ile derecelendirilen filmin başlığı
  • "movie_genres": derecelendirilen filmin ait olduğu türler dizisi
  • "user_id": derecelendirmeyi yapan kullanıcının benzersiz tanımlayıcısı
  • "user_rating": derecelendirmenin beş yıldızlı ölçekteki puanı
  • "zaman damgası": 1 Ocak 1970 tarihli Eşgüdümlü Evrensel Saat (UTC) gece yarısından bu yana saniye cinsinden temsil edilen derecelendirmelerin zaman damgası

"100k puan" ve "1 milyon puan" sürümleri ek olarak aşağıdaki demografik özellikleri içerir.

  • "user_gender": derecelendirmeyi yapan kullanıcının cinsiyeti; gerçek bir değer erkeğe karşılık gelir
  • "bucketized_user_age": derecelendirmeyi yapan kullanıcının gruplanmış yaş değerleri, değerler ve karşılık gelen aralıklar:
    • 1: "18 yaş altı"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "user_occupation_label": derecelendirmeyi tamsayı kodlu bir etiketle temsil eden kullanıcının mesleği; etiketler, farklı sürümlerde tutarlı olması için önceden işlenir
  • "user_occupation_text": orijinal dizide derecelendirmeyi yapan kullanıcının mesleği; farklı sürümler farklı ham metin etiketleri kümesine sahip olabilir
  • "user_zip_code": derecelendirmeyi yapan kullanıcının posta kodu

Ek olarak, "100k-ratings" veri kümesi, derecelendirmeyi yapan kullanıcıların tam yaşları olan "raw_user_age" özelliğine de sahip olacaktır.

"-movies" son ekine sahip veri kümeleri yalnızca "movie_id", "movie_title" ve "movie_genres" özelliklerini içerir.

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

movie_lens/25m derecelendirmesi (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Bu veri kümesi, 09 Ocak 1995 ile 21 Kasım arasında 162.541 kullanıcı tarafından oluşturulan 62.423 filmde 25.000.095 derecelendirme içerir.
  • Bu veri kümesi, 21 Kasım 2019'da oluşturulan MovieLens veri kümesinin en son kararlı sürümüdür.

Her kullanıcı en az 20 filmi derecelendirdi. Derecelendirmeler yarım yıldızlı artışlarla. Bu veri seti demografik verileri içermez.

  • İndirme boyutu : 249.84 MiB

  • Veri kümesi boyutu : 3.89 GiB

  • Otomatik önbelleğe alındı ​​( belgeler ): Hayır

  • Bölmeler :

Bölmek Örnekler
'train' 25,000,095
  • Özellik yapısı :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
movie_genres Sıra(Sınıf Etiketi) (Hiçbiri,) tf.int64
film_kimliği tensör tf.string
film başlığı tensör tf.string
zaman damgası tensör tf.int64
Kullanıcı kimliği tensör tf.string
Kullanıcı oyu tensör tf.float32

movie_lens/25m-filmler

  • Yapılandırma açıklaması : Bu veri kümesi, 25m veri kümesinde derecelendirilen 62.423 filmin verilerini içerir.

  • İndirme boyutu : 249.84 MiB

  • Veri kümesi boyutu : 5.71 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Evet

  • Bölmeler :

Bölmek Örnekler
'train' 62.423
  • Özellik yapısı :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
movie_genres Sıra(Sınıf Etiketi) (Hiçbiri,) tf.int64
film_kimliği tensör tf.string
film başlığı tensör tf.string

movie_lens/en son-küçük derecelendirmeler

  • Yapılandırma açıklaması : Bu veri kümesi, 29 Mart 1996 ile 24 Eylül 2018 arasında 610 kullanıcı tarafından oluşturulan 9.742 filmde 100.836 derecelendirme içerir. Bu veri kümesi, 26 Eylül 2018'de oluşturulmuştur ve MovieLens veri kümesinin en son sürümünün bir alt kümesidir. . Bu veri seti zamanla değiştirilir ve güncellenir.

Her kullanıcı en az 20 filmi derecelendirdi. Derecelendirmeler yarım yıldızlı artışlarla. Bu veri seti demografik verileri içermez.

  • İndirme boyutu : 955.28 KiB

  • Veri kümesi boyutu : 15.82 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Evet

  • Bölmeler :

Bölmek Örnekler
'train' 100.836
  • Özellik yapısı :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
movie_genres Sıra(Sınıf Etiketi) (Hiçbiri,) tf.int64
film_kimliği tensör tf.string
film başlığı tensör tf.string
zaman damgası tensör tf.int64
Kullanıcı kimliği tensör tf.string
Kullanıcı oyu tensör tf.float32

movie_lens/en son-küçük filmler

  • Yapılandırma açıklaması : Bu veri kümesi, en son-küçük veri kümesinde derecelendirilen 9.742 filmin verilerini içerir.

  • İndirme boyutu : 955.28 KiB

  • Veri kümesi boyutu : 910.64 KiB

  • Otomatik önbelleğe alınmış ( belgeler ): Evet

  • Bölmeler :

Bölmek Örnekler
'train' 9,742
  • Özellik yapısı :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
movie_genres Sıra(Sınıf Etiketi) (Hiçbiri,) tf.int64
film_kimliği tensör tf.string
film başlığı tensör tf.string

movie_lens/100k derecelendirmesi

  • Yapılandırma açıklaması : Bu veri kümesi, 1.682 filmde 943 kullanıcıdan 100.000 puan içerir. Bu veri kümesi, MovieLens veri kümesinin en eski sürümüdür.

Her kullanıcı en az 20 filmi derecelendirdi. Derecelendirmeler tam yıldızlı artışlarla verilmiştir. Bu veri seti, filmlere ve derecelendirmelere ilişkin verilere ek olarak kullanıcıların demografik verilerini içerir.

  • İndirme boyutu : 4.70 MiB

  • Veri kümesi boyutu : 32.41 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Evet

  • Bölmeler :

Bölmek Örnekler
'train' 100.000
  • Özellik yapısı :
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'raw_user_age': tf.float32,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
kovalanmış_user_age tensör tf.float32
movie_genres Sıra(Sınıf Etiketi) (Hiçbiri,) tf.int64
film_kimliği tensör tf.string
film başlığı tensör tf.string
raw_user_age tensör tf.float32
zaman damgası tensör tf.int64
user_gender tensör tf.bool
Kullanıcı kimliği tensör tf.string
user_occupation_label sınıf etiketi tf.int64
user_occupation_text tensör tf.string
Kullanıcı oyu tensör tf.float32
user_zip_code tensör tf.string

movie_lens/100k-filmler

  • Yapılandırma açıklaması : Bu veri kümesi, 100.000 veri kümesinde derecelendirilen 1.682 filmin verilerini içerir.

  • İndirme boyutu : 4.70 MiB

  • Veri kümesi boyutu : 150.35 KiB

  • Otomatik önbelleğe alınmış ( belgeler ): Evet

  • Bölmeler :

Bölmek Örnekler
'train' 1.682
  • Özellik yapısı :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
movie_genres Sıra(Sınıf Etiketi) (Hiçbiri,) tf.int64
film_kimliği tensör tf.string
film başlığı tensör tf.string

movie_lens/1m-reytingleri

  • Yapılandırma açıklaması : Bu veri kümesi, şu anda MovieLens'e katılan 6.040 MovieLens kullanıcısı tarafından yapılan yaklaşık 3.900 filmin 1.000,209 anonim derecelendirmesini içerir.
  • Bu veri seti, demografik verileri içeren en büyük veri setidir.

Her kullanıcı en az 20 filmi derecelendirdi. Derecelendirmeler tam yıldızlı artışlarla verilmiştir. Demografik verilerde yaş değerleri aralıklara ayrılmakta ve verilerde gerçek değerler yerine her bir aralık için en düşük yaş değeri kullanılmaktadır.

  • İndirme boyutu : 5.64 MiB

  • Veri kümesi boyutu : 308.42 MiB

  • Otomatik önbelleğe alındı ​​( belgeler ): Hayır

  • Bölmeler :

Bölmek Örnekler
'train' 1.000.209
  • Özellik yapısı :
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
kovalanmış_user_age tensör tf.float32
movie_genres Sıra(Sınıf Etiketi) (Hiçbiri,) tf.int64
film_kimliği tensör tf.string
film başlığı tensör tf.string
zaman damgası tensör tf.int64
user_gender tensör tf.bool
Kullanıcı kimliği tensör tf.string
user_occupation_label sınıf etiketi tf.int64
user_occupation_text tensör tf.string
Kullanıcı oyu tensör tf.float32
user_zip_code tensör tf.string

movie_lens/1m-filmler

  • Yapılandırma açıklaması : Bu veri kümesi, 1m veri kümesinde derecelendirilen yaklaşık 3.900 filmin verilerini içerir.

  • İndirme boyutu : 5.64 MiB

  • Veri kümesi boyutu : 351.12 KiB

  • Otomatik önbelleğe alınmış ( belgeler ): Evet

  • Bölmeler :

Bölmek Örnekler
'train' 3.883
  • Özellik yapısı :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
movie_genres Sıra(Sınıf Etiketi) (Hiçbiri,) tf.int64
film_kimliği tensör tf.string
film başlığı tensör tf.string

movie_lens/20m-reytingleri

  • Yapılandırma açıklaması : Bu veri kümesi, 09 Ocak 1995 ile 31 Mart 2015 arasında 138.493 kullanıcı tarafından oluşturulan 27.278 filmde 20.000,263 derecelendirme içerir. Bu veri kümesi 17 Ekim 2016'da oluşturulmuştur.

Her kullanıcı en az 20 filmi derecelendirdi. Derecelendirmeler yarım yıldızlı artışlarla verilmiştir. Bu veri seti demografik veri içermemektedir.

  • İndirme boyutu : 189.50 MiB

  • Veri kümesi boyutu : 3.10 GiB

  • Otomatik önbelleğe alındı ​​( belgeler ): Hayır

  • Bölmeler :

Bölmek Örnekler
'train' 20,000,263
  • Özellik yapısı :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
movie_genres Sıra(Sınıf Etiketi) (Hiçbiri,) tf.int64
film_kimliği tensör tf.string
film başlığı tensör tf.string
zaman damgası tensör tf.int64
Kullanıcı kimliği tensör tf.string
Kullanıcı oyu tensör tf.float32

movie_lens/20m-filmler

  • Yapılandırma açıklaması : Bu veri kümesi, 20m veri kümesinde derecelendirilen 27.278 filmin verilerini içerir

  • İndirme boyutu : 189.50 MiB

  • Veri kümesi boyutu : 2.55 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Evet

  • Bölmeler :

Bölmek Örnekler
'train' 27.278
  • Özellik yapısı :
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
movie_genres Sıra(Sınıf Etiketi) (Hiçbiri,) tf.int64
film_kimliği tensör tf.string
film başlığı tensör tf.string