लायन 400 मी, लान 400 मी

  • विवरण :

LAION-400M डेटासेट पूरी तरह से खुले तौर पर, स्वतंत्र रूप से सुलभ है।

इस डेटासेट के पूर्ण विवरण के लिए https://laion.ai/laion-400-open-dataset/ देखें।

LAION-400M डेटासेट में सभी छवियों और ग्रंथों को OpenAI के CLIP के साथ पाठ और छवि एम्बेडिंग के बीच कोसाइन समानता की गणना करके और 0.3 से नीचे समानता वाले लोगों को हटाकर फ़िल्टर किया गया है। 0.3 की दहलीज मानव मूल्यांकन के माध्यम से निर्धारित की गई थी और सिमेंटिक इमेज-टेक्स्ट-कंटेंट मैचिंग का अनुमान लगाने के लिए एक अच्छा अनुमानी लग रहा था।

छवि-पाठ-जोड़े सामान्य क्रॉल वेब डेटा डंप से निकाले गए हैं और 2014 और 2021 के बीच क्रॉल किए गए यादृच्छिक वेब पेजों से हैं।

विभाजित करना उदाहरण
  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उदाहरण ( tfds.as_dataframe ): गुम।

  • उद्धरण :

@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/छवियां (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • फ़ीचर संरचना :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'url': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण मूल्य पहुंच
विशेषताएं डिक्ट
कैप्शन मूलपाठ डोरी HTML वैकल्पिक-पाठ विशेषता
छवि छवि (कोई नहीं, कोई नहीं, 3) uint8 छवि
लाइसेंस मूलपाठ डोरी क्रिएटिव कॉमन्स लाइसेंस का प्रकार (यदि लागू हो)
nsfw क्लासलेबल int64 NSFW टैग (CLIP के साथ पता चला)। असंगत और अनुपलब्ध टैग को UNTAGGED से बदल दिया जाता है
मूल_ऊंचाई अदिश int32 छवि की मूल ऊंचाई
मूल_चौड़ाई अदिश int32 छवि की मूल चौड़ाई
समानता अदिश फ्लोट64 पाठ और छवि एम्बेडिंग के बीच कोसाइन समानता स्कोर। अनुपलब्ध मान -1.0 के लिए डिफ़ॉल्ट हैं [0.0, 1.0]
यूआरएल मूलपाठ डोरी छवि यूआरएल

laion400m/एम्बेडिंग

  • फ़ीचर संरचना :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'text_embedding': Tensor(shape=(512,), dtype=float16),
    'url': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण मूल्य पहुंच
विशेषताएं डिक्ट
कैप्शन मूलपाठ डोरी HTML वैकल्पिक-पाठ विशेषता
image_embeding टेन्सर (512,) फ्लोट16 क्लिप छवि एम्बेडिंग
लाइसेंस मूलपाठ डोरी क्रिएटिव कॉमन्स लाइसेंस का प्रकार (यदि लागू हो)
nsfw क्लासलेबल int64 NSFW टैग (CLIP के साथ पता चला)। असंगत और अनुपलब्ध टैग को UNTAGGED से बदल दिया जाता है
मूल_ऊंचाई अदिश int32 छवि की मूल ऊंचाई
मूल_चौड़ाई अदिश int32 छवि की मूल चौड़ाई
समानता अदिश फ्लोट64 पाठ और छवि एम्बेडिंग के बीच कोसाइन समानता स्कोर। अनुपलब्ध मान -1.0 के लिए डिफ़ॉल्ट हैं [0.0, 1.0]
text_embeding टेन्सर (512,) फ्लोट16 क्लिप पाठ एम्बेडिंग
यूआरएल मूलपाठ डोरी छवि यूआरएल