nsynth

  • Description:

Le jeu de données NSynth est un jeu de données audio contenant environ 300 000 notes de musique, chacune avec une hauteur, un timbre et une enveloppe uniques. Chaque note est annotée avec trois informations supplémentaires basées sur une combinaison d'algorithmes d'évaluation humaine et heuristiques : Source, Famille et Qualités.

@InProceedings{pmlr-v70-engel17a,
  title =    {Neural Audio Synthesis of Musical Notes with {W}ave{N}et Autoencoders},
  author =   {Jesse Engel and Cinjon Resnick and Adam Roberts and Sander Dieleman and Mohammad Norouzi and Douglas Eck and Karen Simonyan},
  booktitle =    {Proceedings of the 34th International Conference on Machine Learning},
  pages =    {1068--1077},
  year =     {2017},
  editor =   {Doina Precup and Yee Whye Teh},
  volume =   {70},
  series =   {Proceedings of Machine Learning Research},
  address =      {International Convention Centre, Sydney, Australia},
  month =    {06--11 Aug},
  publisher =    {PMLR},
  pdf =      {http://proceedings.mlr.press/v70/engel17a/engel17a.pdf},
  url =      {http://proceedings.mlr.press/v70/engel17a.html},
}

nsynth/full (configuration par défaut)

  • Description Config: Full NSynth Dataset est divisé en train, valides et jeux de tests, sans instruments qui se chevauchent entre l'ensemble des trains et les ensembles de test / valides.

  • Taille du téléchargement: 73.07 GiB

  • Taille Dataset: 73.09 GiB

  • scissions:

Diviser Exemples
'test' 4 096
'train' 289 205
'valid' 12 678
  • Caractéristiques:
FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=tf.float32),
    'id': tf.string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=tf.int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    }),
    'pitch': ClassLabel(shape=(), dtype=tf.int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': tf.bool,
        'dark': tf.bool,
        'distortion': tf.bool,
        'fast_decay': tf.bool,
        'long_release': tf.bool,
        'multiphonic': tf.bool,
        'nonlinear_env': tf.bool,
        'percussive': tf.bool,
        'reverb': tf.bool,
        'tempo-synced': tf.bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=tf.int64, num_classes=128),
})

nsynth/gansynth_subset

  • Description Config: NSynth Dataset limitée aux instruments acoustiques dans l'intervalle de pas MIDI [24, 84]. Utilise des divisions alternatives qui se chevauchent dans les instruments (mais pas dans les notes exactes) entre la rame et les ensembles valides/de test. Cette variante a été introduite dans le document de GANSynth IPSC 2019 ( https://arxiv.org/abs/1902.08710 ).

  • Taille du téléchargement: 73.08 GiB

  • Taille Dataset: 20.73 GiB

  • scissions:

Diviser Exemples
'test' 8 518
'train' 60 788
'valid' 17 469
  • Caractéristiques:
FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=tf.float32),
    'id': tf.string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=tf.int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    }),
    'pitch': ClassLabel(shape=(), dtype=tf.int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': tf.bool,
        'dark': tf.bool,
        'distortion': tf.bool,
        'fast_decay': tf.bool,
        'long_release': tf.bool,
        'multiphonic': tf.bool,
        'nonlinear_env': tf.bool,
        'percussive': tf.bool,
        'reverb': tf.bool,
        'tempo-synced': tf.bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=tf.int64, num_classes=128),
})

nsynth/gansynth_subset.f0_and_loudness

  • Description Config: NSynth Dataset limitée aux instruments acoustiques dans l'intervalle de pas MIDI [24, 84]. Utilise des divisions alternatives qui se chevauchent dans les instruments (mais pas dans les notes exactes) entre la rame et les ensembles valides/de test. Cette variante a été introduite dans le document de GANSynth IPSC 2019 ( https://arxiv.org/abs/1902.08710 ). Cette version contient en outre des estimations de F0 à l'aide de CREPE (Kim et al., 2018) et de l'intensité perceptive pondérée A en décibels. Les deux signaux sont fournis à une fréquence d'images de 250 Hz.

  • Taille du téléchargement: 73.08 GiB

  • Taille Dataset: 22.03 GiB

  • scissions:

Diviser Exemples
'test' 8 518
'train' 60 788
'valid' 17 469
  • Caractéristiques:
FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=tf.float32),
    'f0': FeaturesDict({
        'confidence': Tensor(shape=(1000,), dtype=tf.float32),
        'hz': Tensor(shape=(1000,), dtype=tf.float32),
        'midi': Tensor(shape=(1000,), dtype=tf.float32),
    }),
    'id': tf.string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=tf.int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    }),
    'loudness': FeaturesDict({
        'db': Tensor(shape=(1000,), dtype=tf.float32),
    }),
    'pitch': ClassLabel(shape=(), dtype=tf.int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': tf.bool,
        'dark': tf.bool,
        'distortion': tf.bool,
        'fast_decay': tf.bool,
        'long_release': tf.bool,
        'multiphonic': tf.bool,
        'nonlinear_env': tf.bool,
        'percussive': tf.bool,
        'reverb': tf.bool,
        'tempo-synced': tf.bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=tf.int64, num_classes=128),
})