Speech_commands

説明:

キーワードスポッティングシステムのトレーニングと評価に役立つように設計された、話し言葉の音声データセット。その主な目標は、バックグラウンドノイズや無関係な発話による誤検出をできるだけ少なくして、10 個のターゲットワードのセットから 1 つの単語が話されたことを検出する小さなモデルを構築してテストする方法を提供することです。トレーニングと検証セットでは、「不明」というラベルが、ターゲットの単語やバックグラウンドノイズのラベルよりもはるかに一般的であることに注意してください。リリースバージョンとの違いの 1 つは、サイレントセグメントの処理です。テストセットでは無音セグメントは通常の 1 秒のファイルですが、トレーニングでは "background_noise" フォルダーの下に長いセグメントとして提供されます。ここでは、これらのバックグラウンドノイズを 1 秒のクリップに分割し、ファイルの 1 つを検証セット用に保持します。

追加のドキュメント:コードを使用したペーパーの探索
ホームページ: https://arxiv.org/abs/1804.03209
ソースコード: tfds.datasets.speech_commands.Builder
バージョン:
- 0.0.3 (デフォルト): dtype=tf.int16 でオーディオデータ型を修正します。
ダウンロードサイズ: 2.37 GiB
データセットサイズ: 8.17 GiB
自動キャッシュ(ドキュメント): いいえ
スプリット:

スプリット	例
`'test'`	4,890
`'train'`	85,511
`'validation'`	10,102

機能構造:

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int16),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})

機能のドキュメント:

特徴	クラス	形	Dtype
	特徴辞書
オーディオ	オーディオ	（なし、）	int16
ラベル	クラスラベル		int64

監視されたキー( as_supervised docを参照): ('audio', 'label')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):

引用：

@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}