話し言葉の数字

説明:

音声数字の無料のオーディオデータセット。オーディオ用の MNIST を考えてみてください。

8kHz の wav ファイルに音声数字の録音で構成される単純な音声/音声データセット。録音は、最初と最後で最小限の無音になるようにトリミングされています。

5 スピーカー
2,500 録音 (スピーカーごとに各桁 50)
英語の発音

ファイルは次の形式で名前が付けられます: {digitLabel} {speakerName} {index}.wav

追加のドキュメント:コードを使用したペーパーの探索
ホームページ: https://github.com/Jakobovski/free-spoken-digit-dataset
ソースコード: tfds.datasets.spoken_digit.Builder
バージョン:
- 1.0.9 (デフォルト): リリースノートはありません。
ダウンロードサイズ: 11.42 MiB
データセットのサイズ: 45.68 MiB
自動キャッシュ(ドキュメント): はい
スプリット:

スプリット	例
`'train'`	2,500

機能構造:

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})

機能のドキュメント:

特徴	クラス	形	Dtype
	特徴辞書
オーディオ	オーディオ	（なし、）	int64
オーディオ/ファイル名	文章		ストリング
ラベル	クラスラベル		int64

監視されたキー( as_supervised docを参照): ('audio', 'label')
図( tfds.show_examples ): サポートされていません。
例( tfds.as_dataframe ):

引用：

@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}

話し言葉の数字 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

話し言葉の数字