話し言葉の数字

  • 説明:

音声数字の無料のオーディオ データセット。オーディオ用の MNIST を考えてみてください。

8kHz の wav ファイルに音声数字の録音で構成される単純な音声/音声データセット。録音は、最初と最後で最小限の無音になるようにトリミングされています。

5 スピーカー
2,500 録音 (スピーカーごとに各桁 50)
英語の発音

ファイルは次の形式で名前が付けられます: {digitLabel} {speakerName} {index}.wav

スプリット
'train' 2,500
  • 機能構造:
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
オーディオオーディオ(なし、) int64
オーディオ/ファイル名文章ストリング
ラベルクラスラベルint64
  • 引用
@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}