- תיאור :
Controlled Noisy Web Labels הוא אוסף של ~212,000 כתובות URL לתמונות שבהן כל תמונה מסומנת בקפידה על ידי 3-5 אנשי מקצוע בתחום התיוג על ידי Google Cloud Data Labeling Service. באמצעות ההערות הללו, הוא קובע את הרף הראשון של רעש תווית מבוקר בעולם האמיתי מהאינטרנט.
אנו מספקים את התצורות Red Mini-ImageNet (רעש אינטרנט בעולם האמיתי) ו- Blue Mini-ImageNet: - controlled_noisy_web_labels/mini_imagenet_red - controlled_noisy_web_labels/mini_imagenet_blue
כל תצורה מכילה עשר גרסאות עם עשר רמות רעש p מ-0% עד 80%. לסט האימות יש תוויות נקיות והוא משותף לכל ערכות האימון הרועשות. לכן, לכל תצורה יש את הפיצולים הבאים:
- רכבת_00
- רכבת_05
- רכבת_10
- רכבת_15
- רכבת_20
- רכבת_30
- רכבת_40
- רכבת_50
- רכבת_60
- רכבת_80
- מַתַן תוֹקֵף
ניתן למצוא את הפרטים לבניית מערכי נתונים וניתוח במאמר. כל התמונות משתנות לרזולוציה של 84x84.
דף הבית : https://google.github.io/controlled-noisy-web-labels/index.html
קוד מקור :
tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
1.83 MiB
הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל
download_config.manual_dir
(ברירת המחדל היא~/tensorflow_datasets/downloads/manual/
):
על מנת להוריד נתונים אלה באופן ידני, על המשתמש לבצע את הפעולות הבאות:
- הורד את הפיצולים והביאורים כאן
- חלץ את dataset_no_images.zip אל dataset_no_images/.
- הורד את כל התמונות ב-dataset_no_images/mini-imagenet-annotations.json לתיקיה חדשה בשם dataset_no_images/noisy_images/. שם קובץ הפלט חייב להתאים למזהה התמונה שסופק ב-mini-imagenet-annotations.json. לדוגמה, אם "image/id": "5922767e5677aef4", אז התמונה שהורדת צריכה להיות dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4. הירשם ב- https://image-net.org/download-images והורד את ILSVRC2012_img_train.tar ו-ILSVRC2012_img_val.tar.
מבנה הספריות המתקבל עשוי להיות מעובד על ידי TFDS:
- dataset_no_images/
- mini-imagenet/
- class_name.txt
- לְפַצֵל/
- blue_noise_nl_0.0
- blue_noise_nl_0.1
- ...
- red_noise_nl_0.0
- red_noise_nl_0.1
- ...
- clean_validation
- mini-imagenet-annotations.json
- ILSVRC2012_img_train.tar
- ILSVRC2012_img_val.tar
תמונות_רועשות/
- 5922767e5677aef4.jpg
שמירה אוטומטית במטמון ( תיעוד ): לא
מבנה תכונה :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 3), dtype=uint8),
'is_clean': bool,
'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תְעוּדַת זֶהוּת | טֶקסט | חוּט | ||
תמונה | תמונה | (אין, אין, 3) | uint8 | |
נקי | מוֹתֵחַ | bool | ||
תווית | ClassLabel | int64 |
מפתחות בפיקוח (ראה
as_supervised
doc ):('image', 'label')
ציטוט :
@inproceedings{jiang2020beyond,
title={Beyond synthetic noise: Deep learning on controlled noisy labels},
author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
booktitle={International Conference on Machine Learning},
pages={4804--4815},
year={2020},
organization={PMLR}
}
controlled_noisy_web_labels/mini_imagenet_red (תצורת ברירת מחדל)
גודל מערך נתונים :
1.19 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train_00' | 50,000 |
'train_05' | 50,000 |
'train_10' | 50,000 |
'train_15' | 50,000 |
'train_20' | 50,000 |
'train_30' | 49,985 |
'train_40' | 50,010 |
'train_50' | 49,962 |
'train_60' | 50,000 |
'train_80' | 50,008 |
'validation' | 5,000 |
- איור ( tfds.show_examples ):
- דוגמאות ( tfds.as_dataframe ):
מבוקרות_תוויות_רשת_רועשות/מיני_תמונה_כחול
גודל מערך נתונים :
1.39 GiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train_00' | 60,000 |
'train_05' | 60,000 |
'train_10' | 60,000 |
'train_15' | 60,000 |
'train_20' | 60,000 |
'train_30' | 60,000 |
'train_40' | 60,000 |
'train_50' | 60,000 |
'train_60' | 60,000 |
'train_80' | 60,000 |
'validation' | 5,000 |
- איור ( tfds.show_examples ):
- דוגמאות ( tfds.as_dataframe ):