nsynth

  • Descriptif :

Le jeu de données NSynth est un jeu de données audio contenant environ 300 000 notes de musique, chacune avec une hauteur, un timbre et une enveloppe uniques. Chaque note est annotée avec trois éléments d'information supplémentaires basés sur une combinaison d'algorithmes d'évaluation humaine et heuristique : Source, Famille et Qualités.

@InProceedings{pmlr-v70-engel17a,
  title =    {Neural Audio Synthesis of Musical Notes with {W}ave{N}et Autoencoders},
  author =   {Jesse Engel and Cinjon Resnick and Adam Roberts and Sander Dieleman and Mohammad Norouzi and Douglas Eck and Karen Simonyan},
  booktitle =    {Proceedings of the 34th International Conference on Machine Learning},
  pages =    {1068--1077},
  year =     {2017},
  editor =   {Doina Precup and Yee Whye Teh},
  volume =   {70},
  series =   {Proceedings of Machine Learning Research},
  address =      {International Convention Centre, Sydney, Australia},
  month =    {06--11 Aug},
  publisher =    {PMLR},
  pdf =      {http://proceedings.mlr.press/v70/engel17a/engel17a.pdf},
  url =      {http://proceedings.mlr.press/v70/engel17a.html},
}

nsynth/full (configuration par défaut)

  • Description de la configuration : l'ensemble de données NSynth complet est divisé en ensembles d'apprentissage, valides et de test, sans chevauchement d'instruments entre l'ensemble d'apprentissage et les ensembles valides/de test.

  • Taille du téléchargement : 73.07 GiB

  • Taille du jeu de données : 73.09 GiB

  • Fractionnements :

Diviser Exemples
'test' 4 096
'train' 289 205
'valid' 12 678
  • Structure des fonctionnalités :
FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=float32),
    'id': string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
    }),
    'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': bool,
        'dark': bool,
        'distortion': bool,
        'fast_decay': bool,
        'long_release': bool,
        'multiphonic': bool,
        'nonlinear_env': bool,
        'percussive': bool,
        'reverb': bool,
        'tempo-synced': bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
FonctionnalitésDict
l'audio l'audio (64000,) float32
identifiant Tenseur chaîne
instrument FonctionnalitésDict
instrument/famille Étiquette de classe int64
instrument/étiquette Étiquette de classe int64
instrument/source Étiquette de classe int64
terrain Étiquette de classe int64
qualités FonctionnalitésDict
qualités/brillant Tenseur bourdonner
qualités/sombre Tenseur bourdonner
qualités/distorsion Tenseur bourdonner
qualités/fast_decay Tenseur bourdonner
qualités/long_release Tenseur bourdonner
qualités/multiphonique Tenseur bourdonner
qualités/env_nonlinéaire Tenseur bourdonner
qualités/percussif Tenseur bourdonner
qualités/réverbération Tenseur bourdonner
qualités/synchronisé au tempo Tenseur bourdonner
rapidité Étiquette de classe int64

nsynth/gansynth_subset

  • Description de la configuration : NSynth Dataset limité aux instruments acoustiques dans l'intervalle de hauteur MIDI [24, 84]. Utilise des fractionnements alternatifs qui se chevauchent dans les instruments (mais pas des notes exactes) entre le train et les ensembles valides/de test. Cette variante a été introduite à l'origine dans l'article ICLR 2019 GANSynth ( https://arxiv.org/abs/1902.08710 ).

  • Taille du téléchargement : 73.08 GiB

  • Taille du jeu de données : 20.73 GiB

  • Fractionnements :

Diviser Exemples
'test' 8 518
'train' 60 788
'valid' 17 469
  • Structure des fonctionnalités :
FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=float32),
    'id': string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
    }),
    'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': bool,
        'dark': bool,
        'distortion': bool,
        'fast_decay': bool,
        'long_release': bool,
        'multiphonic': bool,
        'nonlinear_env': bool,
        'percussive': bool,
        'reverb': bool,
        'tempo-synced': bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
FonctionnalitésDict
l'audio l'audio (64000,) float32
identifiant Tenseur chaîne
instrument FonctionnalitésDict
instrument/famille Étiquette de classe int64
instrument/étiquette Étiquette de classe int64
instrument/source Étiquette de classe int64
terrain Étiquette de classe int64
qualités FonctionnalitésDict
qualités/brillant Tenseur bourdonner
qualités/sombre Tenseur bourdonner
qualités/distorsion Tenseur bourdonner
qualités/fast_decay Tenseur bourdonner
qualités/long_release Tenseur bourdonner
qualités/multiphonique Tenseur bourdonner
qualités/env_nonlinéaire Tenseur bourdonner
qualités/percussif Tenseur bourdonner
qualités/réverbération Tenseur bourdonner
qualités/synchronisé au tempo Tenseur bourdonner
rapidité Étiquette de classe int64

nsynth/gansynth_subset.f0_and_loudness

  • Description de la configuration : NSynth Dataset limité aux instruments acoustiques dans l'intervalle de hauteur MIDI [24, 84]. Utilise des fractionnements alternatifs qui se chevauchent dans les instruments (mais pas des notes exactes) entre le train et les ensembles valides/de test. Cette variante a été introduite à l'origine dans l'article ICLR 2019 GANSynth ( https://arxiv.org/abs/1902.08710 ). Cette version contient en outre des estimations pour F0 à l'aide de CREPE (Kim et al., 2018) et de l'intensité sonore perceptuelle pondérée A en décibels. Les deux signaux sont fournis à une fréquence d'images de 250 Hz.

  • Taille du téléchargement : 73.08 GiB

  • Taille du jeu de données : 22.03 GiB

  • Fractionnements :

Diviser Exemples
'test' 8 518
'train' 60 788
'valid' 17 469
  • Structure des fonctionnalités :
FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=float32),
    'f0': FeaturesDict({
        'confidence': Tensor(shape=(1000,), dtype=float32),
        'hz': Tensor(shape=(1000,), dtype=float32),
        'midi': Tensor(shape=(1000,), dtype=float32),
    }),
    'id': string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
    }),
    'loudness': FeaturesDict({
        'db': Tensor(shape=(1000,), dtype=float32),
    }),
    'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': bool,
        'dark': bool,
        'distortion': bool,
        'fast_decay': bool,
        'long_release': bool,
        'multiphonic': bool,
        'nonlinear_env': bool,
        'percussive': bool,
        'reverb': bool,
        'tempo-synced': bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})
  • Documentation des fonctionnalités :
Fonctionnalité Classe Forme Dtype Description
FonctionnalitésDict
l'audio l'audio (64000,) float32
f0 FonctionnalitésDict
f0/confiance Tenseur (1000,) float32
f0/Hz Tenseur (1000,) float32
f0/midi Tenseur (1000,) float32
identifiant Tenseur chaîne
instrument FonctionnalitésDict
instrument/famille Étiquette de classe int64
instrument/étiquette Étiquette de classe int64
instrument/source Étiquette de classe int64
intensité FonctionnalitésDict
volume/db Tenseur (1000,) float32
terrain Étiquette de classe int64
qualités FonctionnalitésDict
qualités/brillant Tenseur bourdonner
qualités/sombre Tenseur bourdonner
qualités/distorsion Tenseur bourdonner
qualités/fast_decay Tenseur bourdonner
qualités/long_release Tenseur bourdonner
qualités/multiphonique Tenseur bourdonner
qualités/env_nonlinéaire Tenseur bourdonner
qualités/percussif Tenseur bourdonner
qualités/réverbération Tenseur bourdonner
qualités/synchronisé au tempo Tenseur bourdonner
rapidité Étiquette de classe int64