- Описание :
CBIS-DDSM (Curated Imaging Subset of DDSM) - это обновленная и стандартизированная версия цифровой базы данных для скрининговой маммографии (DDSM). DDSM - это база данных из 2620 сканированных маммографических исследований. Он содержит нормальные, доброкачественные и злокачественные заболевания с подтвержденной информацией о патологии.
Конфигурация по умолчанию состоит из патчей, извлеченных из исходных маммограмм, в соответствии с описанием с http://arxiv.org/abs/1708.09427, чтобы создать задачу для решения в традиционной настройке классификации изображений.
Домашняя страница : https://wiki.cancerimagingarchive.net/display/Public/CBIS-DDSM
Исходный код :
tfds.image_classification.CuratedBreastImagingDDSM
Версии :
-
2.0.1
: новый разделенный API ( https://tensorflow.org/datasets/splits ) -
3.0.0
(по умолчанию): улучшенная выборка обрезки ( https://github.com/tensorflow/datasets/pull/2502 )
-
Инструкции по загрузке вручную : для этого набора данных необходимо вручную загрузить исходные данные в
download_config.manual_dir
(по умолчанию~/tensorflow_datasets/downloads/manual/
):
Вы можете скачать изображения с https://wiki.cancerimagingarchive.net/display/Public/CBIS-DDSM
Поскольку для загрузки и чтения изображений, содержащихся в наборе данных, необходимы специальное программное обеспечение и библиотеки, TFDS предполагает, что пользователь загрузил исходные файлы DCIM и преобразовал их в PNG.
Следующие команды (или их эквиваленты) следует использовать для создания файлов PNG, чтобы гарантировать воспроизводимые результаты:
find $DATASET_DCIM_DIR -name '*.dcm' | \
xargs -n1 -P8 -I{} bash -c 'f={}; dcmj2pnm $f | convert - ${f/.dcm/.png}'
Полученные изображения следует поместить в manual_dir
, например: <manual_dir>/Mass-Training_P_01981_RIGHT_MLO_1/1.3.6.../000000.png
.
Автоматическое кэширование ( документация ): Нет
Контролируемые ключи (см.
as_supervised
doc ):None
Цитата :
@misc{CBIS_DDSM_Citation,
doi = {10.7937/k9/tcia.2016.7o02s9cy},
url = {https://wiki.cancerimagingarchive.net/x/lZNXAQ},
author = {Sawyer-Lee, Rebecca and Gimenez, Francisco and Hoogi, Assaf and Rubin, Daniel},
title = {Curated Breast Imaging Subset of DDSM},
publisher = {The Cancer Imaging Archive},
year = {2016},
}
@article{TCIA_Citation,
author = {
K. Clark and B. Vendt and K. Smith and J. Freymann and J. Kirby and
P. Koppel and S. Moore and S. Phillips and D. Maffitt and M. Pringle and
L. Tarbox and F. Prior
},
title = { {The Cancer Imaging Archive (TCIA): Maintaining and Operating a
Public Information Repository} },
journal = {Journal of Digital Imaging},
volume = {26},
month = {December},
year = {2013},
pages = {1045-1057},
}
@article{DBLP:journals/corr/abs-1708-09427,
author = {Li Shen},
title = {End-to-end Training for Whole Image Breast Cancer Diagnosis using
An All Convolutional Design},
journal = {CoRR},
volume = {abs/1708.09427},
year = {2017},
url = {http://arxiv.org/abs/1708.09427},
archivePrefix = {arXiv},
eprint = {1708.09427},
timestamp = {Mon, 13 Aug 2018 16:48:35 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1708-09427},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
curated_breast_imaging_ddsm / patches (конфигурация по умолчанию)
Описание конфигурации : Патчи, содержащие как исправления, так и массовые кейсы, плюс пути без отклонений. Разработан как традиционная 5-классная задача классификации.
Размер загрузки :
2.01 MiB
Размер набора данных :
801.46 MiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 9 770 |
'train' | 49 780 |
'validation' | 5 580 |
- Особенности :
FeaturesDict({
'id': Text(shape=(), dtype=tf.string),
'image': Image(shape=(None, None, 1), dtype=tf.uint8),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=5),
})
- Рисунок ( tfds.show_examples ):
- Примеры ( tfds.as_dataframe ):
curated_breast_imaging_ddsm / original-calc
Описание конфигурации : Исходные изображения случаев кальцификации, сжатые в PNG без потерь.
Размер загрузки :
1.06 MiB
Размер набора данных :
4.42 GiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 284 |
'train' | 1,227 |
- Особенности :
FeaturesDict({
'abnormalities': Sequence({
'assessment': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
'calc_distribution': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
'calc_type': ClassLabel(shape=(), dtype=tf.int64, num_classes=48),
'id': tf.int32,
'mask': Image(shape=(None, None, 1), dtype=tf.uint8),
'pathology': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
'subtlety': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
}),
'breast': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'id': Text(shape=(), dtype=tf.string),
'image': Image(shape=(None, None, 1), dtype=tf.uint8),
'patient': Text(shape=(), dtype=tf.string),
'view': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
})
- Рисунок ( tfds.show_examples ):
- Примеры ( tfds.as_dataframe ):
curated_breast_imaging_ddsm / оригинальная масса
Описание конфигурации : Оригинальные изображения массовых кейсов, сжатые в PNG без потерь.
Размер загрузки :
966.57 KiB
Размер набора данных :
4.80 GiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 348 |
'train' | 1,166 |
- Особенности :
FeaturesDict({
'abnormalities': Sequence({
'assessment': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
'id': tf.int32,
'mask': Image(shape=(None, None, 1), dtype=tf.uint8),
'mass_margins': ClassLabel(shape=(), dtype=tf.int64, num_classes=20),
'mass_shape': ClassLabel(shape=(), dtype=tf.int64, num_classes=21),
'pathology': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
'subtlety': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
}),
'breast': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'id': Text(shape=(), dtype=tf.string),
'image': Image(shape=(None, None, 1), dtype=tf.uint8),
'patient': Text(shape=(), dtype=tf.string),
'view': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
})
- Рисунок ( tfds.show_examples ):
- Примеры ( tfds.as_dataframe ):