laion400m, laion400m

  • توضیحات :

مجموعه داده LAION-400M کاملاً باز و آزادانه در دسترس است.

برای توضیحات کامل این مجموعه داده https://laion.ai/laion-400-open-dataset/ را بررسی کنید.

تمامی تصاویر و متون موجود در مجموعه داده LAION-400M با محاسبه شباهت کسینوس بین متن و جاسازی تصویر و حذف مواردی که شباهت کمتر از 0.3 دارند، با CLIP OpenAI فیلتر شده اند. آستانه 0.3 از طریق ارزیابی های انسانی تعیین شده بود و به نظر می رسید اکتشافی خوبی برای تخمین تطابق معنایی تصویر-متن-محتوا باشد.

جفت‌های تصویر-متن از پایگاه داده‌های وب Common Crawl استخراج شده‌اند و از صفحات وب تصادفی هستند که بین سال‌های 2014 و 2021 خزیده شده‌اند.

شکاف مثال ها
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (پیکربندی پیش فرض)

  • ساختار ویژگی :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'url': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح محدوده ارزش
FeaturesDict
عنوان متن رشته ویژگی متن جایگزین HTML
تصویر تصویر (هیچ، هیچ، 3) uint8 تصویر
مجوز متن رشته نوع مجوز Creative Commons (در صورت وجود)
nsfw ClassLabel int64 برچسب NSFW (با CLIP شناسایی شد). برچسب‌های غیر منسجم و گمشده با UNTAGGED جایگزین می‌شوند
ارتفاع_اصلی اسکالر int32 ارتفاع اصلی تصویر
عرض_اصلی اسکالر int32 عرض اصلی تصویر
شباهت اسکالر float64 امتیاز شباهت کسینوس بین متن و جاسازی تصویر. مقادیر از دست رفته به طور پیش فرض -1.0 است [0.0، 1.0]
آدرس اینترنتی متن رشته آدرس تصویر

laion400m/Embeddings

  • ساختار ویژگی :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'text_embedding': Tensor(shape=(512,), dtype=float16),
    'url': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح محدوده ارزش
FeaturesDict
عنوان متن رشته ویژگی متن جایگزین HTML
image_embedding تانسور (512،) float16 جاسازی تصویر CLIP
مجوز متن رشته نوع مجوز Creative Commons (در صورت وجود)
nsfw ClassLabel int64 برچسب NSFW (با CLIP شناسایی شد). برچسب‌های غیر منسجم و گمشده با UNTAGGED جایگزین می‌شوند
ارتفاع_اصلی اسکالر int32 ارتفاع اصلی تصویر
عرض_اصلی اسکالر int32 عرض اصلی تصویر
شباهت اسکالر float64 امتیاز شباهت کسینوس بین متن و جاسازی تصویر. مقادیر از دست رفته به طور پیش فرض -1.0 است [0.0، 1.0]
text_embedding تانسور (512،) float16 جاسازی متن CLIP
آدرس اینترنتی متن رشته آدرس تصویر