大騒ぎ

  • 説明

Free Universal Sound Separation(FUSS)データセットは、任意の音の混合とソースレベルの参照のデータベースであり、任意の音の分離に関する実験で使用します。

これは、DCASE2020チャレンジタスク4:国内環境での音イベントの検出と分離の公式の音分離データです。

概要:FUSSオーディオデータは、AudioSetオントロジーのラベルで注釈が付けられたFreesoundコンテンツで構成されるサウンドイベントデータセットである(FSD50k)として知られるFreesoundデータセットのプレリリースから供給されます。 FSD50Kラベルを使用して、これらのソースファイルは、単一のタイプのサウンドのみが含まれている可能性が高いようにスクリーニングされています。これらのソースファイルにはラベルが提供されておらず、チャレンジの一部とは見なされません。 DCASE Task4の音の分離とイベント検出の課題の目的で、FSD50Kのリリース時に利用可能になる可能性がある場合でも、システムはFSD50Kラベルを使用しないでください。

混合物を作成するために、ソースの10秒のクリップがシミュレートされた部屋のインパルス応答で畳み込まれ、一緒に追加されます。各10秒の混合物には、1〜4個のソースが含まれています。 10秒より長いソースファイルは「バックグラウンド」ソースと見なされます。すべての混合物には、全期間にわたってアクティブな1つのバックグラウンドソースが含まれています。データセットを作成するためのソフトウェアレシピ、部屋のインパルス応答、および元のソースオーディオを提供します。

スプリット
'test' 1,000
'train' 20,000
'validation' 1,000
  • 特長
FeaturesDict({
    'id': tf.string,
    'jams': tf.string,
    'mixture_audio': Audio(shape=(160000,), dtype=tf.int16),
    'segments': Sequence({
        'end_time_seconds': tf.float32,
        'label': tf.string,
        'start_time_seconds': tf.float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=tf.int16),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    }),
})
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

大騒ぎ/残響(デフォルト設定)

  • コンフィグの説明:デフォルトの残響オーディオ。

  • ダウンロードサイズ7.35 GiB

  • データセットサイズ43.20 GiB

  • tfds.as_dataframe ):

大騒ぎ/未処理

  • コンフィグの説明:追加の残響のない未処理のオーディオ。

  • ダウンロードサイズ8.28 GiB

  • データセットサイズ45.58 GiB

  • tfds.as_dataframe ):