09:00 पीएसटी पर एमएल संगोष्ठी इस मंगलवार, 19 अक्टूबर में पहले महिलाओं में ट्यून रजिस्टर अब

मूवीलेंस

  • विवरण:

इस डेटासेट में MovieLens वेबसाइट से मूवी रेटिंग का एक सेट होता है, जो एक मूवी अनुशंसा सेवा है। यह डेटासेट एकत्र और द्वारा बनाए रखा गया था GroupLens , मिनेसोटा विश्वविद्यालय में एक अनुसंधान समूह। इसमें 5 संस्करण शामिल हैं: "25m", "नवीनतम-छोटा", "100k", "1m", "20m"। सभी डेटासेट में, मूवी डेटा और रेटिंग डेटा "मूवीआईडी" पर जुड़ जाते हैं। 25m डेटासेट, नवीनतम-छोटे डेटासेट और 20m डेटासेट में केवल मूवी डेटा और रेटिंग डेटा होता है। 1m डेटासेट और 100k डेटासेट में मूवी और रेटिंग डेटा के अलावा जनसांख्यिकीय डेटा होता है।

  • "25m": यह MovieLens डेटासेट का नवीनतम स्थिर संस्करण है। अनुसंधान उद्देश्यों के लिए इसकी अनुशंसा की जाती है।
  • "नवीनतम-छोटा": यह MovieLens डेटासेट के नवीनतम संस्करण का एक छोटा उपसमुच्चय है। इसे GroupLens द्वारा समय के साथ बदला और अद्यतन किया जाता है।
  • "100k": यह MovieLens डेटासेट का सबसे पुराना संस्करण है। यह जनसांख्यिकीय डेटा वाला एक छोटा डेटासेट है।
  • "1m": यह सबसे बड़ा MovieLens डेटासेट है जिसमें जनसांख्यिकीय डेटा होता है।
  • "20m": यह 1m डेटासेट के साथ अकादमिक पेपर में सबसे अधिक उपयोग किए जाने वाले MovieLens डेटासेट में से एक है।

प्रत्येक संस्करण के लिए, उपयोगकर्ता "-movies" प्रत्यय (जैसे "25m-movies") जोड़कर या तो केवल मूवी डेटा देख सकते हैं या मूवी डेटा (और 1m और 100k डेटासेट में उपयोगकर्ता डेटा) के साथ रेटिंग डेटा को जोड़कर देख सकते हैं। "-रेटिंग" प्रत्यय (जैसे "25m-रेटिंग")।

नीचे दी गई विशेषताएं "-रेटिंग" प्रत्यय वाले सभी संस्करणों में शामिल हैं।

  • "मूवी_आईडी": रेटेड फिल्म का एक विशिष्ट पहचानकर्ता
  • "movie_title": रेटिंग वाली फ़िल्म का शीर्षक कोष्ठक में रिलीज़ वर्ष के साथ
  • "movie_genres": उन शैलियों का एक क्रम जिससे रेटिंग की गई फिल्म संबंधित है
  • "user_id": रेटिंग करने वाले उपयोगकर्ता का एक विशिष्ट पहचानकर्ता
  • "user_rating": पांच सितारा पैमाने पर रेटिंग का स्कोर
  • "टाइमस्टैम्प": रेटिंग का टाइमस्टैम्प, 1 जनवरी, 1970 की मध्यरात्रि कोऑर्डिनेटेड यूनिवर्सल टाइम (UTC) के बाद से सेकंड में दर्शाया गया है

इसके अतिरिक्त "100k-रेटिंग" और "1m-रेटिंग" संस्करणों में निम्नलिखित जनसांख्यिकीय विशेषताएं शामिल हैं।

  • "user_gender": रेटिंग करने वाले उपयोगकर्ता का लिंग; एक वास्तविक मूल्य पुरुष से मेल खाता है
  • "bucketized_user_age": रेटिंग करने वाले उपयोगकर्ता के बकेटाइज़्ड आयु मान, मान और संबंधित श्रेणियां हैं:
    • 1: "अंडर 18"
    • 18: "18-24"
    • 25: "25-34"
    • 35: "35-44"
    • 45: "45-49"
    • 50: "50-55"
    • 56: "56+"
  • "user_occupation_label": उस उपयोगकर्ता का व्यवसाय जिसने रेटिंग को पूर्णांक-एन्कोडेड लेबल द्वारा दर्शाया है; लेबल विभिन्न संस्करणों में सुसंगत होने के लिए पूर्व-संसाधित होते हैं
  • "user_occupation_text": मूल स्ट्रिंग में रेटिंग बनाने वाले उपयोगकर्ता का व्यवसाय; विभिन्न संस्करणों में कच्चे टेक्स्ट लेबल के अलग-अलग सेट हो सकते हैं
  • "user_zip_code": रेटिंग करने वाले उपयोगकर्ता का ज़िप कोड

इसके अलावा, "100k-रेटिंग" डेटासेट में "raw_user_age" एक विशेषता भी होगी जो रेटिंग बनाने वाले उपयोगकर्ताओं की सटीक आयु है

"-movies" प्रत्यय वाले डेटासेट में केवल "movie_id", "movie_title" और "movie_genres" विशेषताएं होती हैं।

@article{10.1145/2827872,
author = {Harper, F. Maxwell and Konstan, Joseph A.},
title = {The MovieLens Datasets: History and Context},
year = {2015},
issue_date = {January 2016},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
volume = {5},
number = {4},
issn = {2160-6455},
url = {https://doi.org/10.1145/2827872},
doi = {10.1145/2827872},
journal = {ACM Trans. Interact. Intell. Syst.},
month = dec,
articleno = {19},
numpages = {19},
keywords = {Datasets, recommendations, ratings, MovieLens}
}

Movielens/25m-रेटिंग (डिफ़ॉल्ट कॉन्फ़िग)

  • कॉन्फ़िग विवरण: यह डेटासेट 62,423 फिल्में भर में 25,000,095 रेटिंग्स शामिल जनवरी 09, 1995 और 21 नवंबर के बीच 162,541 उपयोगकर्ताओं द्वारा बनाई गई,
  • यह डेटासेट MovieLens डेटासेट का नवीनतम स्थिर संस्करण है, जिसे 21 नवंबर, 2019 को जनरेट किया गया है।

प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों को रेट किया है। रेटिंग हाफ-स्टार इंक्रीमेंट में हैं। इस डेटासेट में जनसांख्यिकीय डेटा शामिल नहीं है।

  • डाउनलोड का आकार: 249.84 MiB

  • डेटासेट का आकार: 3.89 GiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'train' 25,000,095
  • विशेषताएं:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

Movielens/25m-movies

  • कॉन्फ़िग विवरण: यह डेटासेट 62,423 फिल्में 25 मी डेटासेट में मूल्यांकन का डेटा होता है।

  • डाउनलोड का आकार: 249.84 MiB

  • डेटासेट का आकार: 5.71 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ

  • विभाजन:

विभाजित करना उदाहरण
'train' 62,423
  • विशेषताएं:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

Movielens/नवीनतम-छोटे-रेटिंग

  • कॉन्फ़िग विवरण: यह डेटासेट 9742 फिल्में, 29 मार्च, 1996 और 24 सितंबर, 2018 के बीच 610 उपयोगकर्ताओं द्वारा बनाई गई यह डेटासेट 26 सितंबर, 2018 पर उत्पन्न होता है भर में 100,836 रेटिंग्स होता है और MovieLens डाटासेट से भरा नवीनतम संस्करण का एक सबसेट है . यह डेटासेट समय के साथ बदला और अपडेट किया जाता है।

प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों को रेट किया है। रेटिंग हाफ-स्टार इंक्रीमेंट में हैं। इस डेटासेट में जनसांख्यिकीय डेटा शामिल नहीं है।

  • डाउनलोड का आकार: 955.28 KiB

  • डेटासेट का आकार: 15.82 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ

  • विभाजन:

विभाजित करना उदाहरण
'train' 100,836
  • विशेषताएं:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

Movielens/नवीनतम-छोटी-फिल्में

  • कॉन्फ़िग विवरण: यह डेटासेट 9742 फिल्में नवीनतम-छोटे डेटासेट में मूल्यांकन का डेटा होता है।

  • डाउनलोड का आकार: 955.28 KiB

  • डेटासेट का आकार: 910.64 KiB

  • ऑटो-कैश ( प्रलेखन ): हाँ

  • विभाजन:

विभाजित करना उदाहरण
'train' 9,742
  • विशेषताएं:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

मूवीलेंस/100k-रेटिंग

  • कॉन्फ़िग विवरण: यह डेटासेट 1,682 फिल्मों पर 943 उपयोगकर्ताओं से 100,000 रेटिंग में शामिल है। यह डेटासेट MovieLens डेटासेट का सबसे पुराना संस्करण है।

प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों को रेट किया है। रेटिंग पूरे स्टार वेतन वृद्धि में हैं। इस डेटासेट में मूवी और रेटिंग के डेटा के अलावा उपयोगकर्ताओं का जनसांख्यिकीय डेटा होता है।

  • डाउनलोड का आकार: 4.70 MiB

  • डेटासेट का आकार: 32.41 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ

  • विभाजन:

विभाजित करना उदाहरण
'train' 100,000
  • विशेषताएं:
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'raw_user_age': tf.float32,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

मूवीलेंस/100k-फिल्में

  • कॉन्फ़िग विवरण: यह डेटासेट 1,682 फिल्में 100k डेटासेट में मूल्यांकन का डेटा होता है।

  • डाउनलोड का आकार: 4.70 MiB

  • डेटासेट का आकार: 150.35 KiB

  • ऑटो-कैश ( प्रलेखन ): हाँ

  • विभाजन:

विभाजित करना उदाहरण
'train' 1,682
  • विशेषताएं:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

Movielens/1m-रेटिंग

  • कॉन्फ़िग विवरण: यह डेटासेट में 6040 MovieLens करने वाले उपयोगकर्ताओं के MovieLens में शामिल हो गए द्वारा किए गए लगभग 3,900 फिल्मों का 1,000,209 गुमनाम रेटिंग्स शामिल
  • यह डेटासेट सबसे बड़ा डेटासेट है जिसमें जनसांख्यिकीय डेटा शामिल है।

प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों को रेट किया है। रेटिंग पूरे स्टार वेतन वृद्धि में हैं। जनसांख्यिकीय डेटा में, आयु मानों को श्रेणियों में विभाजित किया जाता है और प्रत्येक श्रेणी के लिए न्यूनतम आयु मान का उपयोग वास्तविक मानों के बजाय डेटा में किया जाता है।

  • डाउनलोड का आकार: 5.64 MiB

  • डेटासेट का आकार: 308.42 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'train' 1,000,209
  • विशेषताएं:
FeaturesDict({
    'bucketized_user_age': tf.float32,
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_gender': tf.bool,
    'user_id': tf.string,
    'user_occupation_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=22),
    'user_occupation_text': tf.string,
    'user_rating': tf.float32,
    'user_zip_code': tf.string,
})

मूवीलेंस/1m-फिल्में

  • कॉन्फ़िग विवरण: यह डेटासेट 1m डेटासेट में मूल्यांकन लगभग 3,900 फिल्मों का डेटा होता है।

  • डाउनलोड का आकार: 5.64 MiB

  • डेटासेट का आकार: 351.12 KiB

  • ऑटो-कैश ( प्रलेखन ): हाँ

  • विभाजन:

विभाजित करना उदाहरण
'train' 3,883
  • विशेषताएं:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})

Movielens/20m-रेटिंग

  • कॉन्फ़िग विवरण: यह डेटासेट 27,278 फिल्में जनवरी 09, 1995 और 31 मार्च 2015 के बीच 138,493 उपयोगकर्ताओं द्वारा बनाई गई यह डेटासेट अक्टूबर 17, 2016 को जनरेट किया गया था भर में 20,000,263 रेटिंग में शामिल है।

प्रत्येक उपयोगकर्ता ने कम से कम 20 फिल्मों को रेट किया है। रेटिंग हाफ-स्टार इंक्रीमेंट में हैं। इस डेटासेट में जनसांख्यिकीय डेटा नहीं है।

  • डाउनलोड का आकार: 189.50 MiB

  • डेटासेट का आकार: 3.10 GiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'train' 20,000,263
  • विशेषताएं:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
    'timestamp': tf.int64,
    'user_id': tf.string,
    'user_rating': tf.float32,
})

Movielens/20m-movies

  • कॉन्फ़िग विवरण: यह डेटासेट 27,278 फिल्में 20 मीटर डेटासेट में मूल्यांकन का डेटा होता है

  • डाउनलोड का आकार: 189.50 MiB

  • डेटासेट का आकार: 2.55 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ

  • विभाजन:

विभाजित करना उदाहरण
'train' २७,२७८
  • विशेषताएं:
FeaturesDict({
    'movie_genres': Sequence(ClassLabel(shape=(), dtype=tf.int64, num_classes=21)),
    'movie_id': tf.string,
    'movie_title': tf.string,
})