gtzan

Descripción :

El conjunto de datos consta de 1000 pistas de audio cada una de 30 segundos de duración. Contiene 10 géneros, cada uno representado por 100 pistas. Las pistas son todos archivos de audio mono de 16 bits de 22050 Hz en formato .wav.

Los géneros son:

blues
clásico
país
disco
hip hop
jazz
metal
estallido
reggae
roca
Documentación adicional : Explore en Papers With Code
Página de inicio: http://marsyas.info/index.html
Código fuente : tfds.audio.gtzan.GTZAN
Versiones :
- 1.0.0 (predeterminado): Sin notas de la versión.
Tamaño de descarga : 1.14 GiB
Tamaño del conjunto de datos : 3.71 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Separar	Ejemplos
`'train'`	1,000

Estructura de características :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
audio	Audio	(Ninguna,)	int64
audio/nombre de archivo	Texto		cuerda
etiqueta	Etiqueta de clase		int64

Teclas supervisadas (Ver as_supervised ): ('audio', 'label')
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ):

Cita :

@misc{tzanetakis_essl_cook_2001,
author    = "Tzanetakis, George and Essl, Georg and Cook, Perry",
title     = "Automatic Musical Genre Classification Of Audio Signals",
url       = "http://ismir2001.ismir.net/pdf/tzanetakis.pdf",
publisher = "The International Society for Music Information Retrieval",
year      = "2001"
}

gtzan Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

gtzan