laion400m, laion400m

  • Mô tả :

Bộ dữ liệu LAION-400M hoàn toàn mở, có thể truy cập miễn phí.

Kiểm tra https://laion.ai/laion-400-open-dataset/ để biết mô tả đầy đủ về bộ dữ liệu này.

Tất cả hình ảnh và văn bản trong bộ dữ liệu LAION-400M đã được lọc bằng CLIP của OpenAI bằng cách tính toán độ tương tự cosine giữa phần nhúng văn bản và hình ảnh và loại bỏ những hình ảnh và hình ảnh có độ tương tự dưới 0,3. Ngưỡng 0,3 đã được xác định thông qua đánh giá của con người và dường như là một kinh nghiệm tốt để ước tính sự phù hợp giữa hình ảnh-văn bản-nội dung ngữ nghĩa.

Các cặp hình ảnh-văn bản đã được trích xuất từ ​​kết xuất dữ liệu web Thu thập thông tin chung và từ các trang web ngẫu nhiên được thu thập thông tin từ năm 2014 đến năm 2021.

Tách ra ví dụ
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/hình ảnh (cấu hình mặc định)

  • Cấu trúc tính năng :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'url': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả Phạm vi giá trị
Tính năngDict
đầu đề Chữ sợi dây Thuộc tính văn bản thay thế HTML
hình ảnh Hình ảnh (Không, Không có, 3) uint8 hình ảnh
giấy phép Chữ sợi dây loại giấy phép Creative Commons (nếu có)
nsfw LớpNhãn int64 Thẻ NSFW (được phát hiện bằng CLIP). Các thẻ không liên kết và bị thiếu được thay thế bằng UNTAGGED
original_height Vô hướng int32 chiều cao ban đầu của hình ảnh
original_width Vô hướng int32 chiều rộng ban đầu của hình ảnh
sự giống nhau Vô hướng phao64 điểm tương tự cosine giữa nhúng văn bản và hình ảnh. Thiếu giá trị mặc định là -1.0 [0.0, 1.0]
url Chữ sợi dây URL hình ảnh

laion400m/lần nhúng

  • Cấu trúc tính năng :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'text_embedding': Tensor(shape=(512,), dtype=float16),
    'url': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả Phạm vi giá trị
Tính năngDict
đầu đề Chữ sợi dây Thuộc tính văn bản thay thế HTML
image_embedding tenxơ (512,) phao16 nhúng hình ảnh CLIP
giấy phép Chữ sợi dây loại giấy phép Creative Commons (nếu có)
nsfw LớpNhãn int64 Thẻ NSFW (được phát hiện bằng CLIP). Các thẻ không liên kết và bị thiếu được thay thế bằng UNTAGGED
original_height Vô hướng int32 chiều cao ban đầu của hình ảnh
original_width Vô hướng int32 chiều rộng ban đầu của hình ảnh
sự giống nhau Vô hướng phao64 điểm tương tự cosine giữa nhúng văn bản và hình ảnh. Thiếu giá trị mặc định là -1.0 [0.0, 1.0]
text_embedding tenxơ (512,) phao16 nhúng văn bản CLIP
url Chữ sợi dây URL hình ảnh