¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

gtzan

  • Descripción:

El conjunto de datos consta de 1000 pistas de audio cada 30 segundos de duración. Contiene 10 géneros, cada uno representado por 100 pistas. Las pistas son archivos de audio mono de 16 bits a 22050Hz en formato .wav.

Los géneros son:

  • blues
  • clásico
  • país
  • disco
  • hip hop
  • jazz
  • metal
  • música pop
  • reggae
  • Roca

  • Inicio: http://marsyas.info/index.html

  • El código fuente: tfds.audio.gtzan.GTZAN

  • versiones:

    • 1.0.0 (por defecto): No hay notas de la versión.
  • Tamaño del paquete: 1.14 GiB

  • Tamaño de conjunto de datos: 3.71 GiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'train' 1.000
  • características:
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=tf.int64),
    'audio/filename': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
})
  • Cita:
@misc{tzanetakis_essl_cook_2001,
author    = "Tzanetakis, George and Essl, Georg and Cook, Perry",
title     = "Automatic Musical Genre Classification Of Audio Signals",
url       = "http://ismir2001.ismir.net/pdf/tzanetakis.pdf",
publisher = "The International Society for Music Information Retrieval",
year      = "2001"
}