מבוקרות_תוויות_רשת_רועשות

  • תיאור :

Controlled Noisy Web Labels הוא אוסף של ~212,000 כתובות URL לתמונות שבהן כל תמונה מסומנת בקפידה על ידי 3-5 אנשי מקצוע בתחום התיוג על ידי Google Cloud Data Labeling Service. באמצעות ההערות הללו, הוא קובע את הרף הראשון של רעש תווית מבוקר בעולם האמיתי מהאינטרנט.

אנו מספקים את התצורות Red Mini-ImageNet (רעש אינטרנט בעולם האמיתי) ו- Blue Mini-ImageNet: - controlled_noisy_web_labels/mini_imagenet_red - controlled_noisy_web_labels/mini_imagenet_blue

כל תצורה מכילה עשר גרסאות עם עשר רמות רעש p מ-0% עד 80%. לסט האימות יש תוויות נקיות והוא משותף לכל ערכות האימון הרועשות. לכן, לכל תצורה יש את הפיצולים הבאים:

  • רכבת_00
  • רכבת_05
  • רכבת_10
  • רכבת_15
  • רכבת_20
  • רכבת_30
  • רכבת_40
  • רכבת_50
  • רכבת_60
  • רכבת_80
  • מַתַן תוֹקֵף

ניתן למצוא את הפרטים לבניית מערכי נתונים וניתוח במאמר. כל התמונות משתנות לרזולוציה של 84x84.

  1. הורד את הפיצולים והביאורים כאן
  2. חלץ את dataset_no_images.zip אל dataset_no_images/.
  3. הורד את כל התמונות ב-dataset_no_images/mini-imagenet-annotations.json לתיקיה חדשה בשם dataset_no_images/noisy_images/. שם קובץ הפלט חייב להתאים למזהה התמונה שסופק ב-mini-imagenet-annotations.json. לדוגמה, אם "image/id": "5922767e5677aef4", אז התמונה שהורדת צריכה להיות dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4. הירשם ב- https://image-net.org/download-images והורד את ILSVRC2012_img_train.tar ו-ILSVRC2012_img_val.tar.

מבנה הספריות המתקבל עשוי להיות מעובד על ידי TFDS:

  • dataset_no_images/
    • mini-imagenet/
    • class_name.txt
    • לְפַצֵל/
      • blue_noise_nl_0.0
      • blue_noise_nl_0.1
      • ...
      • red_noise_nl_0.0
      • red_noise_nl_0.1
      • ...
      • clean_validation
    • mini-imagenet-annotations.json
  • ILSVRC2012_img_train.tar
  • ILSVRC2012_img_val.tar
  • תמונות_רועשות/

    • 5922767e5677aef4.jpg
  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • מבנה תכונה :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תְעוּדַת זֶהוּת טֶקסט חוּט
תמונה תמונה (אין, אין, 3) uint8
נקי מוֹתֵחַ bool
תווית ClassLabel int64
  • מפתחות בפיקוח (ראה as_supervised doc ): ('image', 'label')

  • ציטוט :

@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

controlled_noisy_web_labels/mini_imagenet_red (תצורת ברירת מחדל)

  • גודל מערך נתונים : 1.19 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'train_00' 50,000
'train_05' 50,000
'train_10' 50,000
'train_15' 50,000
'train_20' 50,000
'train_30' 49,985
'train_40' 50,010
'train_50' 49,962
'train_60' 50,000
'train_80' 50,008
'validation' 5,000

רְאִיָה

מבוקרות_תוויות_רשת_רועשות/מיני_תמונה_כחול

  • גודל מערך נתונים : 1.39 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'train_00' 60,000
'train_05' 60,000
'train_10' 60,000
'train_15' 60,000
'train_20' 60,000
'train_30' 60,000
'train_40' 60,000
'train_50' 60,000
'train_60' 60,000
'train_80' 60,000
'validation' 5,000

רְאִיָה