- Açıklama:
Konuşulan rakamlardan oluşan ücretsiz bir ses veri seti. Ses için MNIST'i düşünün.
8kHz'de wav dosyalarında konuşulan rakamların kayıtlarından oluşan basit bir ses/konuşma veri seti. Kayıtlar, başlangıç ve bitişlerde neredeyse minimum sessizliğe sahip olacak şekilde kırpılır.
5 konuşmacı 2.500 kayıt (konuşmacı başına her rakamdan 50 adet) İngilizce telaffuz
{DigitLabel} {Hoparlör,} {index} .wav: Dosyalar aşağıdaki biçimde adlandırılır
Anasayfa: https://github.com/Jakobovski/free-spoken-digit-dataset
Kaynak kodu:
tfds.audio.spoken_digit.SpokenDigit
sürümleri:
-
1.0.9
(varsayılan): Hayır sürüm notları.
-
İndirme boyutu:
11.42 MiB
Veri kümesi boyutu:
45.68 MiB
Otomatik önbelleğe ( dokümantasyon ): Evet
Splits:
Bölmek | Örnekler |
---|---|
'train' | 2.500 |
- Özellikler:
FeaturesDict({
'audio': Audio(shape=(None,), dtype=tf.int64),
'audio/filename': Text(shape=(), dtype=tf.string),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
})
Denetimli tuşları (Bkz
as_supervised
doc ):('audio', 'label')
Şekil ( tfds.show_examples ): desteklenmez.
Örnekler ( tfds.as_dataframe ):
- Citation:
@ONLINE {Free Spoken Digit Dataset,
author = "Zohar Jackson",
title = "Spoken_Digit",
year = "2016",
url = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}