laion400m,laion400m

  • คำอธิบาย :

ชุดข้อมูล LAION-400M เป็นแบบเปิดเผยและเข้าถึงได้อย่างอิสระ

ตรวจสอบ https://laion.ai/laion-400-open-dataset/ สำหรับคำอธิบายแบบเต็มของชุดข้อมูลนี้

รูปภาพและข้อความทั้งหมดในชุดข้อมูล LAION-400M ได้รับการกรองด้วย CLIP ของ OpenAI โดยคำนวณความคล้ายคลึงกันของโคไซน์ระหว่างการฝังข้อความและรูปภาพ และปล่อยสิ่งเหล่านั้นที่มีความคล้ายคลึงกันต่ำกว่า 0.3 เกณฑ์ที่ 0.3 ถูกกำหนดโดยการประเมินโดยมนุษย์ และดูเหมือนจะเป็นฮิวริสติกที่ดีสำหรับการประเมินการจับคู่เนื้อหาภาพ-ข้อความ-ความหมาย

ภาพ-ข้อความ-คู่ได้รับการดึงมาจากการถ่ายโอนข้อมูลเว็บ Common Crawl และมาจากหน้าเว็บแบบสุ่มที่รวบรวมข้อมูลระหว่างปี 2014 ถึง 2021

  • เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส

  • หน้าแรก : https://laion.ai/blog/laion-400-open-dataset/

  • รหัสที่มา : tfds.vision_language.laion400m.Laion400m

  • รุ่น :

    • 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
  • ขนาดการดาวน์โหลด : Unknown size

  • ขนาดชุดข้อมูล : Unknown size

  • คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
    อ้างอิงถึงส่วน "ดาวน์โหลดข้อมูล" ใน https://laion.ai/blog/laion-400-open-dataset/

  • แคชอัตโนมัติ ( เอกสาร ): ไม่รู้จัก

  • แยก :

แยก ตัวอย่าง
@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/ภาพ (การกำหนดค่าเริ่มต้น)

  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'url': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย ช่วงค่า
คุณสมบัติDict
คำอธิบายภาพ ข้อความ สตริง แอตทริบิวต์ข้อความแสดงแทน HTML
ภาพ ภาพ (ไม่มี, ไม่มี, 3) uint8 ภาพ
ใบอนุญาต ข้อความ สตริง ประเภทสัญญาอนุญาตครีเอทีฟคอมมอนส์ (ถ้ามี)
nsfw ป้ายกำกับคลาส int64 แท็ก NSFW (ตรวจพบด้วย CLIP) แท็กที่ไม่ติดกันและขาดหายไปจะถูกแทนที่ด้วย UNTAGGED
original_height สเกลาร์ int32 ความสูงเดิมของภาพ
ต้นฉบับ_ความกว้าง สเกลาร์ int32 ความกว้างเดิมของภาพ
ความคล้ายคลึงกัน สเกลาร์ float64 คะแนนความคล้ายคลึงกันของโคไซน์ระหว่างการฝังข้อความและรูปภาพ ค่าเริ่มต้นที่ขาดหายไปคือ -1.0 [0.0, 1.0]
URL ข้อความ สตริง URL รูปภาพ

laion400m/ฝัง

  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'text_embedding': Tensor(shape=(512,), dtype=float16),
    'url': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย ช่วงค่า
คุณสมบัติDict
คำอธิบายภาพ ข้อความ สตริง แอตทริบิวต์ข้อความแสดงแทน HTML
image_embedding เทนเซอร์ (512,) ลอย16 การฝังภาพ CLIP
ใบอนุญาต ข้อความ สตริง ประเภทสัญญาอนุญาตครีเอทีฟคอมมอนส์ (ถ้ามี)
nsfw ป้ายกำกับคลาส int64 แท็ก NSFW (ตรวจพบด้วย CLIP) แท็กที่ไม่ติดกันและขาดหายไปจะถูกแทนที่ด้วย UNTAGGED
original_height สเกลาร์ int32 ความสูงเดิมของภาพ
ต้นฉบับ_ความกว้าง สเกลาร์ int32 ความกว้างเดิมของภาพ
ความคล้ายคลึงกัน สเกลาร์ float64 คะแนนความคล้ายคลึงกันของโคไซน์ระหว่างการฝังข้อความและรูปภาพ ค่าเริ่มต้นที่ขาดหายไปคือ -1.0 [0.0, 1.0]
text_embedding เทนเซอร์ (512,) ลอย16 การฝังข้อความ CLIP
URL ข้อความ สตริง URL รูปภาพ