Эта страница была переведа с помощью Cloud Translation API.
Switch to English

Speaken_digit

  • Описание :

Бесплатный набор аудиоданных из разговорных цифр. Подумайте MNIST для аудио.

Простой набор аудио / речевых данных, состоящий из записей произносимых цифр в файлах wav с частотой 8 кГц. Записи обрезаются так, чтобы в начале и в конце была минимальная тишина.

5 динамиков 2500 записей (по 50 каждой цифры на говорящего) Произношение на английском языке

Имена файлов имеют следующий формат: {digitLabel} {SpeakerName} {index} .wav

Трещина Примеры
'train' 2,500
  • Особенности :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=tf.int64),
    'audio/filename': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
})
  • Контролируемые ключи (см. as_supervised doc ): ('audio', 'label')

  • Цитата :

@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}