лаион400м,лайон400м

  • Описание :

Набор данных LAION-400M полностью открыт, в свободном доступе.

Проверьте https://laion.ai/laion-400-open-dataset/ для получения полного описания этого набора данных.

Все изображения и тексты в наборе данных LAION-400M были отфильтрованы с помощью CLIP OpenAI путем вычисления косинусного сходства между встраиванием текста и изображения и отбрасывания тех, у которых сходство ниже 0,3. Пороговое значение 0,3 было определено с помощью человеческих оценок и оказалось хорошей эвристикой для оценки семантического соответствия изображения-текста-контента.

Пары изображение-текст были извлечены из дампа веб-данных Common Crawl и взяты из случайных веб-страниц, просканированных в период с 2014 по 2021 год.

Расколоть Примеры
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/images (конфигурация по умолчанию)

  • Структура функции :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'url': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Сорт Форма Dтип Описание Диапазон значений
ОсобенностиDict
подпись Текст нить Атрибут альтернативного текста HTML
изображение Изображение (Нет, Нет, 3) uint8 изображение
лицензия Текст нить тип лицензии Creative Commons (если применимо)
нсфв Метка класса int64 Тег NSFW (обнаружен с помощью CLIP). Несвязные и отсутствующие теги заменяются на UNTAGGED
original_height Скаляр int32 исходная высота изображения
исходная_ширина Скаляр int32 исходная ширина изображения
сходство Скаляр поплавок64 оценка косинусного сходства между текстом и встраиванием изображения. Отсутствующие значения по умолчанию равны -1,0. [0,0, 1,0]
URL Текст нить URL изображения

laion400м/встраивания

  • Структура функции :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'text_embedding': Tensor(shape=(512,), dtype=float16),
    'url': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Сорт Форма Dтип Описание Диапазон значений
ОсобенностиDict
подпись Текст нить Атрибут альтернативного текста HTML
image_embedding Тензор (512,) поплавок16 Встраивание изображения CLIP
лицензия Текст нить тип лицензии Creative Commons (если применимо)
нсфв Метка класса int64 Тег NSFW (обнаружен с помощью CLIP). Несвязные и отсутствующие теги заменяются на UNTAGGED
original_height Скаляр int32 исходная высота изображения
исходная_ширина Скаляр int32 исходная ширина изображения
сходство Скаляр поплавок64 оценка косинусного сходства между текстом и встраиванием изображения. Отсутствующие значения по умолчанию равны -1,0. [0,0, 1,0]
text_embedding Тензор (512,) поплавок16 Встраивание текста CLIP
URL Текст нить URL изображения