s'agiter

  • Description:

L'ensemble de données Free Universal Sound Separation (FUSS) est une base de données de mélanges sonores arbitraires et de références au niveau de la source, à utiliser dans des expériences sur la séparation sonore arbitraire.

Il s'agit des données officielles de séparation du son pour la tâche 4 du défi DCASE2020 : Détection et séparation des événements sonores dans les environnements domestiques.

Présentation : les données audio FUSS proviennent d'une pré-version de l'ensemble de données Freesound connu sous le nom de (FSD50k), un ensemble de données d'événements sonores composé de contenu Freesound annoté avec des étiquettes de l'ontologie AudioSet. À l'aide des étiquettes FSD50K, ces fichiers sources ont été filtrés de telle sorte qu'ils ne contiennent probablement qu'un seul type de son. Les étiquettes ne sont pas fournies pour ces fichiers sources et ne sont pas considérées comme faisant partie du défi. Dans le cadre du défi de séparation du son et de détection d'événements DCASE Task4, les systèmes ne doivent pas utiliser les étiquettes FSD50K, même si elles peuvent devenir disponibles lors de la publication de FSD50K.

Pour créer des mélanges, des clips de 10 secondes de sources sont convolués avec des réponses impulsionnelles de pièce simulées et additionnés. Chaque mélange de 10 secondes contient entre 1 et 4 sources. Les fichiers source de plus de 10 secondes sont considérés comme des sources « d'arrière-plan ». Chaque mélange contient une source de fond, qui est active pendant toute la durée. Nous fournissons : une recette logicielle pour créer l'ensemble de données, les réponses impulsionnelles de la pièce et l'audio source d'origine.

Diviser Exemples
'test' 1 000
'train' 20 000
'validation' 1 000
  • Caractéristiques:
FeaturesDict({
    'id': tf.string,
    'jams': tf.string,
    'mixture_audio': Audio(shape=(160000,), dtype=tf.int16),
    'segments': Sequence({
        'end_time_seconds': tf.float32,
        'label': tf.string,
        'start_time_seconds': tf.float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=tf.int16),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    }),
})
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

tapageur/réverbérant (configuration par défaut)

  • Description Config: audio par défaut réverbéré.

  • Taille du téléchargement: 7.35 GiB

  • Taille Dataset: 43.20 GiB

  • Exemples ( tfds.as_dataframe ):

chichi/non traité

  • Description Config: audio sans réverbération supplémentaire non transformé.

  • Taille du téléchargement: 8.28 GiB

  • Taille Dataset: 45.58 GiB

  • Exemples ( tfds.as_dataframe ):