gtzan

  • Descripción :

El conjunto de datos consta de 1000 pistas de audio cada una de 30 segundos de duración. Contiene 10 géneros, cada uno representado por 100 pistas. Las pistas son todos archivos de audio mono de 16 bits de 22050 Hz en formato .wav.

Los géneros son:

  • blues
  • clásico
  • país
  • disco
  • hip hop
  • jazz
  • metal
  • música pop
  • reggae
  • rock

  • Página de inicio: http://marsyas.info/index.html

  • Código fuente : tfds.audio.gtzan.GTZAN

  • Versiones :

    • 1.0.0 (predeterminado): Sin notas de la versión.
  • Tamaño de descarga : 1.14 GiB

  • Tamaño del conjunto de datos : 3.71 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'train' 1,000
  • Características :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=tf.int64),
    'audio/filename': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
})
  • Cita :
@misc{tzanetakis_essl_cook_2001,
author    = "Tzanetakis, George and Essl, Georg and Cook, Perry",
title     = "Automatic Musical Genre Classification Of Audio Signals",
url       = "http://ismir2001.ismir.net/pdf/tzanetakis.pdf",
publisher = "The International Society for Music Information Retrieval",
year      = "2001"
}