laion400m,laion400m

คำอธิบาย :

ชุดข้อมูล LAION-400M เป็นแบบเปิดเผยและเข้าถึงได้อย่างอิสระ

ตรวจสอบ https://laion.ai/laion-400-open-dataset/ สำหรับคำอธิบายแบบเต็มของชุดข้อมูลนี้

รูปภาพและข้อความทั้งหมดในชุดข้อมูล LAION-400M ได้รับการกรองด้วย CLIP ของ OpenAI โดยคำนวณความคล้ายคลึงกันของโคไซน์ระหว่างการฝังข้อความและรูปภาพ และปล่อยสิ่งเหล่านั้นที่มีความคล้ายคลึงกันต่ำกว่า 0.3 เกณฑ์ที่ 0.3 ถูกกำหนดโดยการประเมินโดยมนุษย์ และดูเหมือนจะเป็นฮิวริสติกที่ดีสำหรับการประเมินการจับคู่เนื้อหาภาพ-ข้อความ-ความหมาย

ภาพ-ข้อความ-คู่ได้รับการดึงมาจากการถ่ายโอนข้อมูลเว็บ Common Crawl และมาจากหน้าเว็บแบบสุ่มที่รวบรวมข้อมูลระหว่างปี 2014 ถึง 2021

เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://laion.ai/blog/laion-400-open-dataset/
รหัสที่มา : tfds.vision_language.laion400m.Laion400m
รุ่น :
- 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
ขนาดการดาวน์โหลด : Unknown size
ขนาดชุดข้อมูล : Unknown size
คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
อ้างอิงถึงส่วน "ดาวน์โหลดข้อมูล" ใน https://laion.ai/blog/laion-400-open-dataset/
แคชอัตโนมัติ ( เอกสาร ): ไม่รู้จัก
แยก :

แยก	ตัวอย่าง

คีย์ภายใต้การดูแล (ดู as_supervised doc ): None
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
ตัวอย่าง ( tfds.as_dataframe ): ไม่มี
การอ้างอิง :

@article{DBLP:journals/corr/abs-2111-02114,
  author    = {Christoph Schuhmann and
               Richard Vencu and
               Romain Beaumont and
               Robert Kaczmarczyk and
               Clayton Mullis and
               Aarush Katta and
               Theo Coombes and
               Jenia Jitsev and
               Aran Komatsuzaki},
  title     = { {LAION-400M:} Open Dataset of CLIP-Filtered 400 Million Image-Text
               Pairs},
  journal   = {CoRR},
  volume    = {abs/2111.02114},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.02114},
  eprinttype = {arXiv},
  eprint    = {2111.02114},
  timestamp = {Fri, 05 Nov 2021 15:25:54 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-02114.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

laion400m/ภาพ (การกำหนดค่าเริ่มต้น)

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'url': Text(shape=(), dtype=string),
})

เอกสารคุณสมบัติ :

คุณสมบัติ	ระดับ	รูปร่าง	Dประเภท	คำอธิบาย	ช่วงค่า
	คุณสมบัติDict
คำอธิบายภาพ	ข้อความ		สตริง	แอตทริบิวต์ข้อความแสดงแทน HTML
ภาพ	ภาพ	(ไม่มี, ไม่มี, 3)	uint8	ภาพ
ใบอนุญาต	ข้อความ		สตริง	ประเภทสัญญาอนุญาตครีเอทีฟคอมมอนส์ (ถ้ามี)
nsfw	ป้ายกำกับคลาส		int64	แท็ก NSFW (ตรวจพบด้วย CLIP) แท็กที่ไม่ติดกันและขาดหายไปจะถูกแทนที่ด้วย UNTAGGED
original_height	สเกลาร์		int32	ความสูงเดิมของภาพ
ต้นฉบับ_ความกว้าง	สเกลาร์		int32	ความกว้างเดิมของภาพ
ความคล้ายคลึงกัน	สเกลาร์		float64	คะแนนความคล้ายคลึงกันของโคไซน์ระหว่างการฝังข้อความและรูปภาพ ค่าเริ่มต้นที่ขาดหายไปคือ -1.0	[0.0, 1.0]
URL	ข้อความ		สตริง	URL รูปภาพ

laion400m/ฝัง

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'caption': Text(shape=(), dtype=string),
    'image_embedding': Tensor(shape=(512,), dtype=float16),
    'license': Text(shape=(), dtype=string),
    'nsfw': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'original_height': Scalar(shape=(), dtype=int32),
    'original_width': Scalar(shape=(), dtype=int32),
    'similarity': Scalar(shape=(), dtype=float64),
    'text_embedding': Tensor(shape=(512,), dtype=float16),
    'url': Text(shape=(), dtype=string),
})

เอกสารคุณสมบัติ :

คุณสมบัติ	ระดับ	รูปร่าง	Dประเภท	คำอธิบาย	ช่วงค่า
	คุณสมบัติDict
คำอธิบายภาพ	ข้อความ		สตริง	แอตทริบิวต์ข้อความแสดงแทน HTML
image_embedding	เทนเซอร์	(512,)	ลอย16	การฝังภาพ CLIP
ใบอนุญาต	ข้อความ		สตริง	ประเภทสัญญาอนุญาตครีเอทีฟคอมมอนส์ (ถ้ามี)
nsfw	ป้ายกำกับคลาส		int64	แท็ก NSFW (ตรวจพบด้วย CLIP) แท็กที่ไม่ติดกันและขาดหายไปจะถูกแทนที่ด้วย UNTAGGED
original_height	สเกลาร์		int32	ความสูงเดิมของภาพ
ต้นฉบับ_ความกว้าง	สเกลาร์		int32	ความกว้างเดิมของภาพ
ความคล้ายคลึงกัน	สเกลาร์		float64	คะแนนความคล้ายคลึงกันของโคไซน์ระหว่างการฝังข้อความและรูปภาพ ค่าเริ่มต้นที่ขาดหายไปคือ -1.0	[0.0, 1.0]
text_embedding	เทนเซอร์	(512,)	ลอย16	การฝังข้อความ CLIP
URL	ข้อความ		สตริง	URL รูปภาพ