Visualisation : Explorer dans Know Your Data
Descriptif :
Le CBIS-DDSM (Curated Breast Imaging Subset of DDSM) est une version mise à jour et normalisée de la base de données numérique pour le dépistage mammographique (DDSM). La DDSM est une base de données de 2 620 études de mammographie sur film numérisé. Il contient des cas normaux, bénins et malins avec des informations de pathologie vérifiées.
La configuration par défaut est constituée de patchs extraits des mammographies originales, suivant la description de http://arxiv.org/abs/1708.09427, afin d'encadrer la tâche à résoudre dans un cadre de classification d'images traditionnel.
Page d' accueil : https://wiki.cancerimagingarchive.net/display/Public/CBIS-DDSM
Code source :
tfds.image_classification.CuratedBreastImagingDDSM
Versions :
-
2.0.1
: Nouvelle API fractionnée ( https://tensorflow.org/datasets/splits ) -
3.0.0
(par défaut) : meilleur échantillonnage de recadrage ( https://github.com/tensorflow/datasets/pull/2502 )
-
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :
Vous pouvez télécharger les images à partir de https://wiki.cancerimagingarchive.net/display/Public/CBIS-DDSM
Étant donné que des logiciels et des bibliothèques spéciaux sont nécessaires pour télécharger et lire les images contenues dans le jeu de données, TFDS suppose que l'utilisateur a téléchargé les fichiers DCIM d'origine et les a convertis en PNG.
Les commandes suivantes (ou équivalentes) doivent être utilisées pour générer les fichiers PNG, afin de garantir des résultats reproductibles :
find $DATASET_DCIM_DIR -name '*.dcm' | \
xargs -n1 -P8 -I{} bash -c 'f={}; dcmj2pnm $f | convert - ${f/.dcm/.png}'
Les images résultantes doivent être placées dans manual_dir
, comme : <manual_dir>/Mass-Training_P_01981_RIGHT_MLO_1/1.3.6.../000000.png
.
Mise en cache automatique ( documentation ): Non
Clés supervisées (Voir
as_supervised
doc ):None
Citation :
@misc{CBIS_DDSM_Citation,
doi = {10.7937/k9/tcia.2016.7o02s9cy},
url = {https://wiki.cancerimagingarchive.net/x/lZNXAQ},
author = {Sawyer-Lee, Rebecca and Gimenez, Francisco and Hoogi, Assaf and Rubin, Daniel},
title = {Curated Breast Imaging Subset of DDSM},
publisher = {The Cancer Imaging Archive},
year = {2016},
}
@article{TCIA_Citation,
author = {
K. Clark and B. Vendt and K. Smith and J. Freymann and J. Kirby and
P. Koppel and S. Moore and S. Phillips and D. Maffitt and M. Pringle and
L. Tarbox and F. Prior
},
title = { {The Cancer Imaging Archive (TCIA): Maintaining and Operating a
Public Information Repository} },
journal = {Journal of Digital Imaging},
volume = {26},
month = {December},
year = {2013},
pages = {1045-1057},
}
@article{DBLP:journals/corr/abs-1708-09427,
author = {Li Shen},
title = {End-to-end Training for Whole Image Breast Cancer Diagnosis using
An All Convolutional Design},
journal = {CoRR},
volume = {abs/1708.09427},
year = {2017},
url = {http://arxiv.org/abs/1708.09427},
archivePrefix = {arXiv},
eprint = {1708.09427},
timestamp = {Mon, 13 Aug 2018 16:48:35 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1708-09427},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
curated_breast_imaging_ddsm/patches (configuration par défaut)
Description de la configuration : correctifs contenant à la fois des cas de calcification et de masse, ainsi que des chemins sans anomalies. Conçu comme une tâche de classification traditionnelle à 5 classes.
Taille du téléchargement :
2.01 MiB
Taille du jeu de données :
801.46 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 9 770 |
'train' | 49 780 |
'validation' | 5 580 |
- Structure des fonctionnalités :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 1), dtype=uint8),
'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
identifiant | Texte | chaîne de caractères | ||
image | Image | (Aucun, Aucun, 1) | uint8 | |
étiquette | Étiquette de classe | int64 |
- Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):
curated_breast_imaging_ddsm/original-calc
Description de la configuration : Images originales des cas de calcification compressées en PNG sans perte.
Taille du téléchargement :
1.06 MiB
Taille du jeu de données :
4.42 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 284 |
'train' | 1 227 |
- Structure des fonctionnalités :
FeaturesDict({
'abnormalities': Sequence({
'assessment': ClassLabel(shape=(), dtype=int64, num_classes=6),
'calc_distribution': ClassLabel(shape=(), dtype=int64, num_classes=10),
'calc_type': ClassLabel(shape=(), dtype=int64, num_classes=48),
'id': int32,
'mask': Image(shape=(None, None, 1), dtype=uint8),
'pathology': ClassLabel(shape=(), dtype=int64, num_classes=3),
'subtlety': ClassLabel(shape=(), dtype=int64, num_classes=6),
}),
'breast': ClassLabel(shape=(), dtype=int64, num_classes=2),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 1), dtype=uint8),
'patient': Text(shape=(), dtype=string),
'view': ClassLabel(shape=(), dtype=int64, num_classes=2),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
anomalies | Séquence | |||
anomalies/évaluation | Étiquette de classe | int64 | ||
anomalies/calc_distribution | Étiquette de classe | int64 | ||
anomalies/calc_type | Étiquette de classe | int64 | ||
anomalies/identifiant | Tenseur | int32 | ||
anomalies/masque | Image | (Aucun, Aucun, 1) | uint8 | |
anomalies/pathologie | Étiquette de classe | int64 | ||
anomalies/subtilité | Étiquette de classe | int64 | ||
Sein | Étiquette de classe | int64 | ||
identifiant | Texte | chaîne de caractères | ||
image | Image | (Aucun, Aucun, 1) | uint8 | |
patient | Texte | chaîne de caractères | ||
voir | Étiquette de classe | int64 |
- Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):
curated_breast_imaging_ddsm/original-mass
Description de la configuration : Images originales des cas de masse compressées en PNG sans perte.
Taille du téléchargement :
966.57 KiB
Taille du jeu de données :
4.80 GiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 348 |
'train' | 1 166 |
- Structure des fonctionnalités :
FeaturesDict({
'abnormalities': Sequence({
'assessment': ClassLabel(shape=(), dtype=int64, num_classes=6),
'id': int32,
'mask': Image(shape=(None, None, 1), dtype=uint8),
'mass_margins': ClassLabel(shape=(), dtype=int64, num_classes=20),
'mass_shape': ClassLabel(shape=(), dtype=int64, num_classes=21),
'pathology': ClassLabel(shape=(), dtype=int64, num_classes=3),
'subtlety': ClassLabel(shape=(), dtype=int64, num_classes=6),
}),
'breast': ClassLabel(shape=(), dtype=int64, num_classes=2),
'id': Text(shape=(), dtype=string),
'image': Image(shape=(None, None, 1), dtype=uint8),
'patient': Text(shape=(), dtype=string),
'view': ClassLabel(shape=(), dtype=int64, num_classes=2),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
anomalies | Séquence | |||
anomalies/évaluation | Étiquette de classe | int64 | ||
anomalies/identifiant | Tenseur | int32 | ||
anomalies/masque | Image | (Aucun, Aucun, 1) | uint8 | |
anomalies/masse_marges | Étiquette de classe | int64 | ||
anomalies/mass_shape | Étiquette de classe | int64 | ||
anomalies/pathologie | Étiquette de classe | int64 | ||
anomalies/subtilité | Étiquette de classe | int64 | ||
Sein | Étiquette de classe | int64 | ||
identifiant | Texte | chaîne de caractères | ||
image | Image | (Aucun, Aucun, 1) | uint8 | |
patient | Texte | chaîne de caractères | ||
voir | Étiquette de classe | int64 |
- Figure ( tfds.show_examples ):
- Exemples ( tfds.as_dataframe ):