laion400m, laion400m

  • תיאור :

מערך הנתונים של LAION-400M פתוח לחלוטין, נגיש באופן חופשי.

בדוק https://laion.ai/laion-400-open-dataset/ לתיאור המלא של מערך הנתונים הזה.

כל התמונות והטקסטים במערך הנתונים של LAION-400M סוננו עם ה-CLIP של OpenAI על ידי חישוב הדמיון הקוסינוס בין הטבעת הטקסט והתמונה והורדת אלה עם דמיון מתחת ל-0.3. הסף של 0.3 נקבע באמצעות הערכות אנושיות ונראה כי הוא היוריסטיקה טובה להערכת התאמת תמונה-טקסט-תוכן סמנטית.

צמדי התמונה-טקסט חולצו מ-Common Crawl Web Data dump והם מדפי אינטרנט אקראיים שנסרקו בין 2014 ל-2021.

לְפַצֵל דוגמאות
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (תצורת ברירת המחדל)

  • מבנה תכונה :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'url': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור טווח ערכים
FeaturesDict
כּוֹתֶרֶת טֶקסט חוּט תכונת טקסט חלופי של HTML
תמונה תמונה (אין, אין, 3) uint8 תמונה
רישיון טֶקסט חוּט סוג רישיון Creative Commons (אם רלוונטי)
nsfw ClassLabel int64 תג NSFW (זוהה עם CLIP). תגים לא מגובשים וחסרים מוחלפים ב-UNTAGGED
גובה_מקורי סקלר int32 הגובה המקורי של התמונה
רוחב_מקורי סקלר int32 הרוחב המקורי של התמונה
דִמיוֹן סקלר לצוף64 ציון דמיון קוסינוס בין הטבעת הטקסט לתמונה. ערכים חסרים ברירת המחדל היא -1.0 [0.0, 1.0]
כתובת אתר טֶקסט חוּט כתובת אתר של תמונה

laion400m/הטבעות

  • מבנה תכונה :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'text_embedding': Tensor(shape=(512,), dtype=float16),
    'url': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור טווח ערכים
FeaturesDict
כּוֹתֶרֶת טֶקסט חוּט תכונת טקסט חלופי של HTML
תמונה_הטבעה מוֹתֵחַ (512,) לצוף16 הטבעת תמונת CLIP
רישיון טֶקסט חוּט סוג רישיון Creative Commons (אם רלוונטי)
nsfw ClassLabel int64 תג NSFW (זוהה עם CLIP). תגים לא מגובשים וחסרים מוחלפים ב-UNTAGGED
גובה_מקורי סקלר int32 הגובה המקורי של התמונה
רוחב_מקורי סקלר int32 הרוחב המקורי של התמונה
דִמיוֹן סקלר לצוף64 ציון דמיון קוסינוס בין הטבעת הטקסט לתמונה. ערכים חסרים ברירת המחדל היא -1.0 [0.0, 1.0]
text_embedding מוֹתֵחַ (512,) לצוף16 הטמעת טקסט CLIP
כתובת אתר טֶקסט חוּט כתובת אתר של תמונה