کنترل شده_نویز_برچسب_وب

توضیحات :

Controlled Noisy Web Labels مجموعه‌ای از 212000 URL به تصاویر است که در آن هر تصویر با دقت توسط 3-5 متخصص برچسب‌گذاری توسط سرویس برچسب‌گذاری داده‌های ابری Google حاشیه‌نویسی می‌شود. با استفاده از این حاشیه نویسی، اولین معیار نویز کنترل شده برچسب دنیای واقعی از وب را ایجاد می کند.

ما پیکربندی‌های Red Mini-ImageNet (نویز وب دنیای واقعی) و آبی Mini-ImageNet را ارائه می‌کنیم: - controlled_noisy_web_labels/mini_imagenet_red - controlled_noisy_web_labels/mini_imagenet_blue

هر پیکربندی شامل ده نوع با ده سطح نویز p از 0٪ تا 80٪ است. مجموعه اعتبار سنجی دارای برچسب های تمیز است و در تمام مجموعه های آموزشی پر سر و صدا به اشتراک گذاشته می شود. بنابراین، هر پیکربندی دارای تقسیمات زیر است:

قطار_00
قطار_05
train_10
قطار_15
قطار_20
قطار_30
قطار_40
قطار_50
قطار_60
قطار_80
اعتبار سنجی

جزئیات ساخت و تجزیه و تحلیل مجموعه داده را می توان در مقاله یافت. همه تصاویر به وضوح 84x84 تغییر اندازه می دهند.

صفحه اصلی : https://google.github.io/controlled-noisy-web-labels/index.html
کد منبع : tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
نسخه ها :
- 1.0.0 (پیش فرض): انتشار اولیه.
حجم دانلود : 1.83 MiB
دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir (پیش‌فرض ~/tensorflow_datasets/downloads/manual/ ):
برای دانلود دستی این داده ها، کاربر باید عملیات زیر را انجام دهد:

تقسیم ها و حاشیه نویسی ها را از اینجا دانلود کنید
مجموعه داده_no_images.zip را به مجموعه داده_no_images/ استخراج کنید.
همه تصاویر موجود در database_no_images/mini-imagenet-annotations.json را در یک پوشه جدید به نام dataset_no_images/noisy_images/ دانلود کنید. نام فایل خروجی باید با شناسه تصویر ارائه شده در mini-imagenet-annotations.json مطابقت داشته باشد. به عنوان مثال، اگر "image/id": "5922767e5677aef4"، تصویر دانلود شده باید مجموعه داده_no_images/noisy_images/5922767e5677aef4.jpg باشد. 4. در https://image-net.org/download-images ثبت نام کنید و ILSVRC2012_img_train.tar و ILSVRC2012_img_val.tar را دانلود کنید.

ساختار دایرکتوری حاصل ممکن است توسط TFDS پردازش شود:

مجموعه داده_بدون_تصاویر/
- mini-imagenet/
- class_name.txt
- شکاف/
  - blue_noise_nl_0.0
  - blue_noise_nl_0.1
  - ...
  - red_noise_nl_0.0
  - red_noise_nl_0.1
  - ...
  - clean_validation
- mini-imagenet-annotations.json
ILSVRC2012_img_train.tar
ILSVRC2012_img_val.tar
تصاویر_پر سر و صدا/
- 5922767e5677aef4.jpg
ذخیره خودکار ( اسناد ): خیر
ساختار ویژگی :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})

مستندات ویژگی :

ویژگی	کلاس	شکل	نوع D
	FeaturesDict
شناسه	متن		رشته
تصویر	تصویر	(هیچ، هیچ، 3)	uint8
تمیز است	تانسور		بوول
برچسب	ClassLabel		int64

کلیدهای نظارت شده (مشاهده as_supervised doc ): ('image', 'label')
نقل قول :

@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

controlled_noisy_web_labels/mini_imagenet_red (پیکربندی پیش فرض)

حجم مجموعه داده : 1.19 GiB
تقسیم ها :

شکاف	مثال ها
`'train_00'`	50000
`'train_05'`	50000
`'train_10'`	50000
`'train_15'`	50000
`'train_20'`	50000
`'train_30'`	49,985
`'train_40'`	50,010
`'train_50'`	49,962
`'train_60'`	50000
`'train_80'`	50008
`'validation'`	5000

شکل ( tfds.show_examples ):

تجسم

مثال‌ها ( tfds.as_dataframe ):

controlled_noisy_web_labels/mini_imagenet_blue

حجم مجموعه داده : 1.39 GiB
تقسیم ها :

شکاف	مثال ها
`'train_00'`	60000
`'train_05'`	60000
`'train_10'`	60000
`'train_15'`	60000
`'train_20'`	60000
`'train_30'`	60000
`'train_40'`	60000
`'train_50'`	60000
`'train_60'`	60000
`'train_80'`	60000
`'validation'`	5000

شکل ( tfds.show_examples ):

تجسم

مثال‌ها ( tfds.as_dataframe ):

کنترل شده_نویز_برچسب_وب با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

controlled_noisy_web_labels/mini_imagenet_red (پیکربندی پیش فرض)

controlled_noisy_web_labels/mini_imagenet_blue

کنترل شده_نویز_برچسب_وب