大騒ぎ

説明:

Free Universal Sound Separation (FUSS) Dataset は、任意の音の分離に関する実験で使用するための、任意の音の混合と音源レベルの参照のデータベースです。

これは、DCASE2020 チャレンジタスク 4: 家庭環境におけるサウンドイベントの検出と分離の公式のサウンド分離データです。

概要: FUSS オーディオデータは、(FSD50k) として知られる Freesound データセットのプレリリースから供給されます。これは、AudioSet オントロジーのラベルで注釈が付けられた Freesound コンテンツで構成されるサウンドイベントデータセットです。 FSD50K ラベルを使用して、これらのソースファイルは、1 種類のサウンドのみが含まれている可能性が高いように選別されています。これらのソースファイルにはラベルが提供されず、チャレンジの一部とは見なされません。 DCASE Task4 Sound Separation and Event Detection チャレンジの目的のために、システムは FSD50K ラベルを使用すべきではありませんが、FSD50K リリースで使用可能になる可能性があります。

混合物を作成するために、ソースの 10 秒のクリップがシミュレートされた部屋のインパルス応答で畳み込まれ、一緒に追加されます。各 10 秒の混合には、1 ～ 4 つのソースが含まれます。 10 秒を超えるソースファイルは、「バックグラウンド」ソースと見なされます。すべての混合物には 1 つのバックグラウンドソースが含まれており、これは全期間にわたってアクティブです。データセット、部屋のインパルス応答、元のソースオーディオを作成するためのソフトウェアレシピを提供します。

追加のドキュメント:コードを使用したペーパーの探索
ホームページ: https://github.com/google-research/sound-separation/blob/master/datasets/fuss/FUSS_license_doc/README.md
ソースコード: tfds.audio.Fuss
バージョン:
- 1.2.0 (デフォルト): リリースノートはありません。
自動キャッシュ(ドキュメント): いいえ
スプリット:

スプリット	例
`'test'`	1,000
`'train'`	20,000
`'validation'`	1,000

機能構造:

FeaturesDict({
    'id': string,
    'jams': string,
    'mixture_audio': Audio(shape=(160000,), dtype=int16),
    'segments': Sequence({
        'end_time_seconds': float32,
        'label': string,
        'start_time_seconds': float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=int16),
        'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    }),
})

機能のドキュメント:

特徴	クラス	形	Dtype
	特徴辞書
ID	テンソル		ストリング
ジャム	テンソル		ストリング
mix_audio	オーディオ	(160000,)	int16
セグメント	順序
セグメント/end_time_seconds	テンソル		float32
セグメント/ラベル	テンソル		ストリング
セグメント/start_time_seconds	テンソル		float32
ソース	順序
ソース/オーディオ	オーディオ	(160000,)	int16
ソース/レーベル	クラスラベル		int64

監視キー( as_supervised docを参照): ('mixture_audio', 'sources')
図( tfds.show_examples ): サポートされていません。
引用：

\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

大騒ぎ/残響 (デフォルト設定)

構成の説明: デフォルトの残響オーディオ。
ダウンロードサイズ: 7.35 GiB
データセットサイズ: 43.20 GiB
例( tfds.as_dataframe ):

大騒ぎ/未処理

構成の説明: 追加の残響のない未処理のオーディオ。
ダウンロードサイズ: 8.28 GiB
データセットサイズ: 45.58 GiB
例( tfds.as_dataframe ):

大騒ぎ コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

大騒ぎ/残響 (デフォルト設定)

大騒ぎ/未処理

大騒ぎ