vctk

  • Descripción :

Este CSTR VCTK Corpus incluye datos de voz pronunciados por 110 hablantes de inglés con varios acentos. Cada hablante lee alrededor de 400 oraciones, que fueron seleccionadas de un periódico, el pasaje del arcoíris y un párrafo de elicitación utilizado para el archivo de acentos del habla.

Tenga en cuenta que el texto 'p315' se perdió debido a un error en el disco duro.

  • Página de inicio: https://doi.org/10.7488/ds/2645

  • Código fuente : tfds.audio.Vctk

  • Versiones :

    • 1.0.0 : versión VCTK 0.92.0.
    • 1.0.1 (predeterminado) : Corrige el tipo de datos de voz con dtype=tf.int16.
  • Tamaño de descarga : 10.94 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Estructura de características :

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=tf.int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'id': tf.string,
    'speaker': ClassLabel(shape=(), dtype=tf.int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=tf.int16),
    'text': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
acento Etiqueta de clase tf.int64
género Etiqueta de clase tf.int64
identificación Tensor tf.cadena
altavoz Etiqueta de clase tf.int64
discurso Audio (Ninguna,) tf.int16
texto Texto tf.cadena
@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk/mic1 (configuración predeterminada)

  • Descripción de la configuración : audio grabado con un micrófono omnidireccional (DPA 4035). Contiene ruidos de muy baja frecuencia.

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • Tamaño del conjunto de datos : 39.87 GiB

  • Divisiones :

Separar Ejemplos
'train' 44,455

vctk/mic2

  • Descripción de la configuración : audio grabado con un micrófono de condensador de diafragma pequeño con un ancho de banda muy amplio (Sennheiser MKH 800).

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • Tamaño del conjunto de datos : 38.86 GiB

  • Divisiones :

Separar Ejemplos
'train' 43,873