Ayuda a proteger la Gran Barrera de Coral con TensorFlow en Kaggle Únete Challenge

vctk

  • Descripción:

Este CSTR VCTK Corpus incluye datos de voz pronunciados por 110 angloparlantes con varios acentos. Cada orador lee en voz alta alrededor de 400 oraciones, que fueron seleccionadas de un periódico, el pasaje del arco iris y un párrafo de elicitación utilizado para el archivo de acento del discurso.

Tenga en cuenta que el texto 'p315' se perdió debido a un error del disco duro.

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=tf.int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'id': tf.string,
    'speaker': ClassLabel(shape=(), dtype=tf.int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text': Text(shape=(), dtype=tf.string),
})
@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk / mic1 (configuración predeterminada)

  • Descripción Config: Audio grabado utilizando un micrófono omnidireccional (DPA 4035). Contiene ruidos de muy baja frecuencia.

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • Tamaño de conjunto de datos: 39.87 GiB

  • Fraccionamientos:

Separar Ejemplos de
'train' 44,455

vctk / mic2

  • Descripción Config: Audio grabado utilizando un pequeño micrófono de condensador de diafragma con muy amplio ancho de banda (Sennheiser MKH 800).

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • Tamaño de conjunto de datos: 38.86 GiB

  • Fraccionamientos:

Separar Ejemplos de
'train' 43,873