gtzan_music_speech

Descripción :

El conjunto de datos se recopiló con fines de discriminación de música/habla. El conjunto de datos consta de 120 pistas, cada una de 30 segundos de duración. Cada clase (música/discurso) tiene 60 ejemplos. Las pistas son todos archivos de audio mono de 16 bits de 22050 Hz en formato .wav.

Documentación adicional : Explore en Papers With Code
Página de inicio: http://marsyas.info/index.html
Código fuente : tfds.audio.gtzan_music_speech.GTZANMusicSpeech
Versiones :
- 1.0.0 (predeterminado): Sin notas de la versión.
Tamaño de la descarga : 283.29 MiB
Tamaño del conjunto de datos : 424.64 MiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Separar	Ejemplos
`'train'`	128

Estructura de características :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
audio	Audio	(Ninguna,)	int64
audio/nombre de archivo	Texto		cuerda
etiqueta	Etiqueta de clase		int64

Teclas supervisadas (Ver as_supervised ): ('audio', 'label')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):

Cita :

@ONLINE {Music Speech,
    author = "Tzanetakis, George",
    title  = "GTZAN Music/Speech Collection",
    year   = "1999",
    url    = "http://marsyas.info/index.html"
}