大騒ぎ

  • 説明:

Free Universal Sound Separation (FUSS) Dataset は、任意の音の分離に関する実験で使用するための、任意の音の混合と音源レベルの参照のデータベースです。

これは、DCASE2020 チャレンジ タスク 4: 家庭環境におけるサウンド イベントの検出と分離の公式のサウンド分離データです。

概要: FUSS オーディオ データは、(FSD50k) として知られる Freesound データセットのプレリリースから供給されます。これは、AudioSet オントロジーのラベルで注釈が付けられた Freesound コンテンツで構成されるサウンド イベント データセットです。 FSD50K ラベルを使用して、これらのソース ファイルは、1 種類のサウンドのみが含まれている可能性が高いように選別されています。これらのソース ファイルにはラベルが提供されず、チャレンジの一部とは見なされません。 DCASE Task4 Sound Separation and Event Detection チャレンジの目的のために、システムは FSD50K ラベルを使用すべきではありませんが、FSD50K リリースで使用可能になる可能性があります。

混合物を作成するために、ソースの 10 秒のクリップがシミュレートされた部屋のインパルス応答で畳み込まれ、一緒に追加されます。各 10 秒の混合には、1 ~ 4 つのソースが含まれます。 10 秒を超えるソース ファイルは、「バックグラウンド」ソースと見なされます。すべての混合物には 1 つのバックグラウンド ソースが含まれており、これは全期間にわたってアクティブです。データセット、部屋のインパルス応答、元のソース オーディオを作成するためのソフトウェア レシピを提供します。

スプリット
'test' 1,000
'train' 20,000
'validation' 1,000
  • 機能構造:
FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
IDテンソルストリング
ジャムテンソルストリング
mix_audioオーディオ(160000,) int16
セグメント順序
セグメント/end_time_secondsテンソルfloat32
セグメント/ラベルテンソルストリング
セグメント/start_time_secondsテンソルfloat32
ソース順序
ソース/オーディオオーディオ(160000,) int16
ソース/レーベルクラスラベルint64
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

大騒ぎ/残響 (デフォルト設定)

  • 構成の説明: デフォルトの残響オーディオ。

  • ダウンロードサイズ: 7.35 GiB

  • データセットサイズ: 43.20 GiB

  • ( tfds.as_dataframe ):

大騒ぎ/未処理

  • 構成の説明: 追加の残響のない未処理のオーディオ。

  • ダウンロードサイズ: 8.28 GiB

  • データセットサイズ: 45.58 GiB

  • ( tfds.as_dataframe ):