sözlü_digit

Açıklama :

Sesli rakamlardan oluşan ücretsiz bir ses veri kümesi. Ses için MNIST'i düşünün.

8 kHz'de wav dosyalarında konuşulan rakamların kayıtlarından oluşan basit bir ses/konuşma veri seti. Kayıtlar, başlangıçlarında ve bitişlerinde neredeyse minimum sessizliğe sahip olacak şekilde kırpılır.

5 hoparlör
2.500 kayıt (hoparlör başına her basamaktan 50 adet)
İngilizce telaffuzlar

Dosyalar şu biçimde adlandırılır: {digitLabel} {speakerName} {index}.wav

Ek Belgeler : Belgeleri Keşfedin
Ana sayfa : https://github.com/Jakobovski/free-spoken-digit-dataset
Kaynak kodu : tfds.datasets.spoken_digit.Builder
sürümler :
- 1.0.9 (varsayılan): Sürüm notu yok.
İndirme boyutu : 11.42 MiB
Veri kümesi boyutu : 45.68 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
bölmeler :

Bölmek	örnekler
`'train'`	2.500

Özellik yapısı :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})

Özellik belgeleri :

Özellik	Sınıf	Şekil	Dtipi
	ÖzelliklerDict
ses	Ses	(Hiçbiri,)	int64
ses/dosya adı	Metin		sicim
etiket	SınıfEtiketi		int64

Denetlenen tuşlar (Bkz as_supervised doc ): ('audio', 'label')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Örnekler ( tfds.as_dataframe ):

Alıntı :

@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}

sözlü_digit Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.

sözlü_digit