Speech_commands

  • 説明:

キーワード スポッティング システムのトレーニングと評価に役立つように設計された、話し言葉の音声データセット。その主な目標は、バックグラウンド ノイズや無関係な発話による誤検出をできるだけ少なくして、10 個のターゲット ワードのセットから 1 つの単語が話されたことを検出する小さなモデルを構築してテストする方法を提供することです。トレーニングと検証セットでは、「不明」というラベルが、ターゲットの単語やバックグラウンド ノイズのラベルよりもはるかに一般的であることに注意してください。リリース バージョンとの違いの 1 つは、サイレント セグメントの処理です。テスト セットでは無音セグメントは通常の 1 秒のファイルですが、トレーニングでは "background_noise" フォルダーの下に長いセグメントとして提供されます。ここでは、これらのバックグラウンド ノイズを 1 秒のクリップに分割し、ファイルの 1 つを検証セット用に保持します。

スプリット
'test' 4,890
'train' 85,511
'validation' 10,102
  • 機能構造:
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int16),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=12),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
オーディオオーディオ(なし、) int16
ラベルクラスラベルint64
  • 引用
@article{speechcommandsv2,
   author = { {Warden}, P.},
    title = "{Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition}",
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  eprint = {1804.03209},
  primaryClass = "cs.CL",
  keywords = {Computer Science - Computation and Language, Computer Science - Human-Computer Interaction},
    year = 2018,
    month = apr,
    url = {https://arxiv.org/abs/1804.03209},
}