nsynth

Descriptif :

Le jeu de données NSynth est un jeu de données audio contenant environ 300 000 notes de musique, chacune avec une hauteur, un timbre et une enveloppe uniques. Chaque note est annotée avec trois éléments d'information supplémentaires basés sur une combinaison d'algorithmes d'évaluation humaine et heuristique : Source, Famille et Qualités.

Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://g.co/magenta/nsynth-dataset
Code source : tfds.datasets.nsynth.Builder
Versions :
- 2.3.0 : Nouvelle fonctionnalité loudness_db en décibels (non normalisé).
- 2.3.1 : F0 calculé avec correction de normalisation en CREPE.
- 2.3.2 : Utiliser la fonction Audio.
- 2.3.3 (par défaut) : F0 calculé avec le correctif dans la normalisation des vagues CREPE ( https://github.com/marl/crepe/issues/49 ).
Mise en cache automatique ( documentation ): Non
Clés supervisées (Voir as_supervised doc ): None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@InProceedings{pmlr-v70-engel17a,
  title =    {Neural Audio Synthesis of Musical Notes with {W}ave{N}et Autoencoders},
  author =   {Jesse Engel and Cinjon Resnick and Adam Roberts and Sander Dieleman and Mohammad Norouzi and Douglas Eck and Karen Simonyan},
  booktitle =    {Proceedings of the 34th International Conference on Machine Learning},
  pages =    {1068--1077},
  year =     {2017},
  editor =   {Doina Precup and Yee Whye Teh},
  volume =   {70},
  series =   {Proceedings of Machine Learning Research},
  address =      {International Convention Centre, Sydney, Australia},
  month =    {06--11 Aug},
  publisher =    {PMLR},
  pdf =      {http://proceedings.mlr.press/v70/engel17a/engel17a.pdf},
  url =      {http://proceedings.mlr.press/v70/engel17a.html},
}

nsynth/full (configuration par défaut)

Description de la configuration : l'ensemble de données NSynth complet est divisé en ensembles d'apprentissage, valides et de test, sans chevauchement d'instruments entre l'ensemble d'apprentissage et les ensembles valides/de test.
Taille du téléchargement : 73.07 GiB
Taille du jeu de données : 73.09 GiB
Fractionnements :

Diviser	Exemples
`'test'`	4 096
`'train'`	289 205
`'valid'`	12 678

Structure des fonctionnalités :

FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=float32),
    'id': string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
    }),
    'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': bool,
        'dark': bool,
        'distortion': bool,
        'fast_decay': bool,
        'long_release': bool,
        'multiphonic': bool,
        'nonlinear_env': bool,
        'percussive': bool,
        'reverb': bool,
        'tempo-synced': bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Dtype
	FonctionnalitésDict
l'audio	l'audio	(64000,)	float32
identifiant	Tenseur		chaîne
instrument	FonctionnalitésDict
instrument/famille	Étiquette de classe		int64
instrument/étiquette	Étiquette de classe		int64
instrument/source	Étiquette de classe		int64
terrain	Étiquette de classe		int64
qualités	FonctionnalitésDict
qualités/brillant	Tenseur		bourdonner
qualités/sombre	Tenseur		bourdonner
qualités/distorsion	Tenseur		bourdonner
qualités/fast_decay	Tenseur		bourdonner
qualités/long_release	Tenseur		bourdonner
qualités/multiphonique	Tenseur		bourdonner
qualités/env_nonlinéaire	Tenseur		bourdonner
qualités/percussif	Tenseur		bourdonner
qualités/réverbération	Tenseur		bourdonner
qualités/synchronisé au tempo	Tenseur		bourdonner
rapidité	Étiquette de classe		int64

Exemples ( tfds.as_dataframe ):

nsynth/gansynth_subset

Description de la configuration : NSynth Dataset limité aux instruments acoustiques dans l'intervalle de hauteur MIDI [24, 84]. Utilise des fractionnements alternatifs qui se chevauchent dans les instruments (mais pas des notes exactes) entre le train et les ensembles valides/de test. Cette variante a été introduite à l'origine dans l'article ICLR 2019 GANSynth ( https://arxiv.org/abs/1902.08710 ).
Taille du téléchargement : 73.08 GiB
Taille du jeu de données : 20.73 GiB
Fractionnements :

Diviser	Exemples
`'test'`	8 518
`'train'`	60 788
`'valid'`	17 469

Structure des fonctionnalités :

FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=float32),
    'id': string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
    }),
    'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': bool,
        'dark': bool,
        'distortion': bool,
        'fast_decay': bool,
        'long_release': bool,
        'multiphonic': bool,
        'nonlinear_env': bool,
        'percussive': bool,
        'reverb': bool,
        'tempo-synced': bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Dtype
	FonctionnalitésDict
l'audio	l'audio	(64000,)	float32
identifiant	Tenseur		chaîne
instrument	FonctionnalitésDict
instrument/famille	Étiquette de classe		int64
instrument/étiquette	Étiquette de classe		int64
instrument/source	Étiquette de classe		int64
terrain	Étiquette de classe		int64
qualités	FonctionnalitésDict
qualités/brillant	Tenseur		bourdonner
qualités/sombre	Tenseur		bourdonner
qualités/distorsion	Tenseur		bourdonner
qualités/fast_decay	Tenseur		bourdonner
qualités/long_release	Tenseur		bourdonner
qualités/multiphonique	Tenseur		bourdonner
qualités/env_nonlinéaire	Tenseur		bourdonner
qualités/percussif	Tenseur		bourdonner
qualités/réverbération	Tenseur		bourdonner
qualités/synchronisé au tempo	Tenseur		bourdonner
rapidité	Étiquette de classe		int64

Exemples ( tfds.as_dataframe ):

nsynth/gansynth_subset.f0_and_loudness

Description de la configuration : NSynth Dataset limité aux instruments acoustiques dans l'intervalle de hauteur MIDI [24, 84]. Utilise des fractionnements alternatifs qui se chevauchent dans les instruments (mais pas des notes exactes) entre le train et les ensembles valides/de test. Cette variante a été introduite à l'origine dans l'article ICLR 2019 GANSynth ( https://arxiv.org/abs/1902.08710 ). Cette version contient en outre des estimations pour F0 à l'aide de CREPE (Kim et al., 2018) et de l'intensité sonore perceptuelle pondérée A en décibels. Les deux signaux sont fournis à une fréquence d'images de 250 Hz.
Taille du téléchargement : 73.08 GiB
Taille du jeu de données : 22.03 GiB
Fractionnements :

Diviser	Exemples
`'test'`	8 518
`'train'`	60 788
`'valid'`	17 469

Structure des fonctionnalités :

FeaturesDict({
    'audio': Audio(shape=(64000,), dtype=float32),
    'f0': FeaturesDict({
        'confidence': Tensor(shape=(1000,), dtype=float32),
        'hz': Tensor(shape=(1000,), dtype=float32),
        'midi': Tensor(shape=(1000,), dtype=float32),
    }),
    'id': string,
    'instrument': FeaturesDict({
        'family': ClassLabel(shape=(), dtype=int64, num_classes=11),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=1006),
        'source': ClassLabel(shape=(), dtype=int64, num_classes=3),
    }),
    'loudness': FeaturesDict({
        'db': Tensor(shape=(1000,), dtype=float32),
    }),
    'pitch': ClassLabel(shape=(), dtype=int64, num_classes=128),
    'qualities': FeaturesDict({
        'bright': bool,
        'dark': bool,
        'distortion': bool,
        'fast_decay': bool,
        'long_release': bool,
        'multiphonic': bool,
        'nonlinear_env': bool,
        'percussive': bool,
        'reverb': bool,
        'tempo-synced': bool,
    }),
    'velocity': ClassLabel(shape=(), dtype=int64, num_classes=128),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Dtype
	FonctionnalitésDict
l'audio	l'audio	(64000,)	float32
f0	FonctionnalitésDict
f0/confiance	Tenseur	(1000,)	float32
f0/Hz	Tenseur	(1000,)	float32
f0/midi	Tenseur	(1000,)	float32
identifiant	Tenseur		chaîne
instrument	FonctionnalitésDict
instrument/famille	Étiquette de classe		int64
instrument/étiquette	Étiquette de classe		int64
instrument/source	Étiquette de classe		int64
intensité	FonctionnalitésDict
volume/db	Tenseur	(1000,)	float32
terrain	Étiquette de classe		int64
qualités	FonctionnalitésDict
qualités/brillant	Tenseur		bourdonner
qualités/sombre	Tenseur		bourdonner
qualités/distorsion	Tenseur		bourdonner
qualités/fast_decay	Tenseur		bourdonner
qualités/long_release	Tenseur		bourdonner
qualités/multiphonique	Tenseur		bourdonner
qualités/env_nonlinéaire	Tenseur		bourdonner
qualités/percussif	Tenseur		bourdonner
qualités/réverbération	Tenseur		bourdonner
qualités/synchronisé au tempo	Tenseur		bourdonner
rapidité	Étiquette de classe		int64

Exemples ( tfds.as_dataframe ):