curated_breast_imaging_ddsm,curated_breast_imaging_ddsm

Le CBIS-DDSM (Curated Breast Imaging Subset of DDSM) est une version mise à jour et normalisée de la base de données numérique pour le dépistage mammographique (DDSM). La DDSM est une base de données de 2 620 études de mammographie sur film numérisé. Il contient des cas normaux, bénins et malins avec des informations de pathologie vérifiées.

La configuration par défaut est constituée de patchs extraits des mammographies originales, suivant la description de ( http://arxiv.org/abs/1708.09427 ), afin d'encadrer la tâche à résoudre dans un cadre de classification d'images traditionnel.

Étant donné que des logiciels et des bibliothèques spéciaux sont nécessaires pour télécharger et lire les images contenues dans le jeu de données, TFDS suppose que l'utilisateur a téléchargé les fichiers DCIM d'origine et les a convertis en PNG.

Les commandes suivantes (ou équivalentes) doivent être utilisées pour générer les fichiers PNG, afin de garantir des résultats reproductibles :

find $DATASET_DCIM_DIR -name '*.dcm' | \
xargs -n1 -P8 -I{} bash -c 'f={}; dcmj2pnm $f | convert - ${f/.dcm/.png}'

Les images résultantes doivent être placées dans manual_dir , comme : <manual_dir>/Mass-Training_P_01981_RIGHT_MLO_1/1.3.6.../000000.png .

@misc{CBIS_DDSM_Citation,
  doi = {10.7937/k9/tcia.2016.7o02s9cy},
  url = {https://wiki.cancerimagingarchive.net/x/lZNXAQ},
  author = {Sawyer-Lee,  Rebecca and Gimenez,  Francisco and Hoogi,  Assaf and Rubin,  Daniel},
  title = {Curated Breast Imaging Subset of DDSM},
  publisher = {The Cancer Imaging Archive},
  year = {2016},
}
@article{TCIA_Citation,
  author = {
    K. Clark and B. Vendt and K. Smith and J. Freymann and J. Kirby and
    P. Koppel and S. Moore and S. Phillips and D. Maffitt and M. Pringle and
    L. Tarbox and F. Prior
  },
  title = { {The Cancer Imaging Archive (TCIA): Maintaining and Operating a
  Public Information Repository} },
  journal = {Journal of Digital Imaging},
  volume = {26},
  month = {December},
  year = {2013},
  pages = {1045-1057},
}
@article{DBLP:journals/corr/abs-1708-09427,
  author    = {Li Shen},
  title     = {End-to-end Training for Whole Image Breast Cancer Diagnosis using
               An All Convolutional Design},
  journal   = {CoRR},
  volume    = {abs/1708.09427},
  year      = {2017},
  url       = {http://arxiv.org/abs/1708.09427},
  archivePrefix = {arXiv},
  eprint    = {1708.09427},
  timestamp = {Mon, 13 Aug 2018 16:48:35 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1708-09427},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

curated_breast_imaging_ddsm/patches (configuration par défaut)

  • Description de la configuration : correctifs contenant à la fois des cas de calcification et de masse, ainsi que des chemins sans anomalies. Conçu comme une tâche de classification traditionnelle à 5 classes.

  • Taille du téléchargement : 2.01 MiB

  • Taille du jeu de données : 801.46 MiB

  • Fractionnements :

Diviser Exemples
'test' 9 770
'train' 49 780
'validation' 5 580
  • Structure des fonctionnalités :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 1), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=5),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
FonctionnalitésDict
identifiant Texte chaîne
image Image (Aucun, Aucun, 1) uint8
étiqueter Étiquette de classe int64

Visualisation

curated_breast_imaging_ddsm/original-calc

  • Description de la configuration : Images originales des cas de calcification compressées en PNG sans perte.

  • Taille du téléchargement : 1.06 MiB

  • Taille du jeu de données : 4.42 GiB

  • Fractionnements :

Diviser Exemples
'test' 284
'train' 1 227
  • Structure des fonctionnalités :
FeaturesDict({
    'abnormalities': Sequence({
        'assessment': ClassLabel(shape=(), dtype=int64, num_classes=6),
        'calc_distribution': ClassLabel(shape=(), dtype=int64, num_classes=10),
        'calc_type': ClassLabel(shape=(), dtype=int64, num_classes=48),
        'id': int32,
        'mask': Image(shape=(None, None, 1), dtype=uint8),
        'pathology': ClassLabel(shape=(), dtype=int64, num_classes=3),
        'subtlety': ClassLabel(shape=(), dtype=int64, num_classes=6),
    }),
    'breast': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 1), dtype=uint8),
    'patient': Text(shape=(), dtype=string),
    'view': ClassLabel(shape=(), dtype=int64, num_classes=2),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
FonctionnalitésDict
anomalies Séquence
anomalies/évaluation Étiquette de classe int64
anomalies/calc_distribution Étiquette de classe int64
anomalies/calc_type Étiquette de classe int64
anomalies/identifiant Tenseur int32
anomalies/masque Image (Aucun, Aucun, 1) uint8
anomalies/pathologie Étiquette de classe int64
anomalies/subtilité Étiquette de classe int64
sein Étiquette de classe int64
identifiant Texte chaîne
image Image (Aucun, Aucun, 1) uint8
patient Texte chaîne
voir Étiquette de classe int64

Visualisation

curated_breast_imaging_ddsm/original-mass

  • Description de la configuration : Images originales des cas de masse compressées en PNG sans perte.

  • Taille du téléchargement : 966.57 KiB

  • Taille du jeu de données : 4.80 GiB

  • Fractionnements :

Diviser Exemples
'test' 348
'train' 1 166
  • Structure des fonctionnalités :
FeaturesDict({
    'abnormalities': Sequence({
        'assessment': ClassLabel(shape=(), dtype=int64, num_classes=6),
        'id': int32,
        'mask': Image(shape=(None, None, 1), dtype=uint8),
        'mass_margins': ClassLabel(shape=(), dtype=int64, num_classes=20),
        'mass_shape': ClassLabel(shape=(), dtype=int64, num_classes=21),
        'pathology': ClassLabel(shape=(), dtype=int64, num_classes=3),
        'subtlety': ClassLabel(shape=(), dtype=int64, num_classes=6),
    }),
    'breast': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 1), dtype=uint8),
    'patient': Text(shape=(), dtype=string),
    'view': ClassLabel(shape=(), dtype=int64, num_classes=2),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
FonctionnalitésDict
anomalies Séquence
anomalies/évaluation Étiquette de classe int64
anomalies/identifiant Tenseur int32
anomalies/masque Image (Aucun, Aucun, 1) uint8
anomalies/masse_marges Étiquette de classe int64
anomalies/mass_shape Étiquette de classe int64
anomalies/pathologie Étiquette de classe int64
anomalies/subtilité Étiquette de classe int64
sein Étiquette de classe int64
identifiant Texte chaîne
image Image (Aucun, Aucun, 1) uint8
patient Texte chaîne
voir Étiquette de classe int64

Visualisation