O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

vctk

  • Descrição:

Este CSTR VCTK Corpus inclui dados de fala proferidos por 110 falantes de inglês com vários sotaques. Cada palestrante lê cerca de 400 frases, que foram selecionadas de um jornal, a passagem do arco-íris e um parágrafo de elicitação usado para o arquivo de sotaque da fala.

Observe que o texto 'p315' foi perdido devido a um erro no disco rígido.

FeaturesDict({
    'accent': ClassLabel(shape=(), dtype=tf.int64, num_classes=13),
    'gender': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'id': tf.string,
    'speaker': ClassLabel(shape=(), dtype=tf.int64, num_classes=110),
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text': Text(shape=(), dtype=tf.string),
})
@misc{yamagishi2019vctk,
  author={Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten},
  title={ {CSTR VCTK Corpus}: English Multi-speaker Corpus for {CSTR} Voice Cloning Toolkit (version 0.92)},
  publisher={University of Edinburgh. The Centre for Speech Technology Research (CSTR)},
  year=2019,
  doi={10.7488/ds/2645},
}

vctk / mic1 (configuração padrão)

  • A inscrição Config: O áudio gravado usando um microfone omnidirecional (DPA 4035). Contém ruídos de frequência muito baixa.

          This is the same audio released in previous versions of VCTK:
          https://doi.org/10.7488/ds/1994
    
  • Tamanho do conjunto de dados: 39.87 GiB

  • desdobramentos:

Dividir Exemplos
'train' 44.455

vctk / mic2

  • A inscrição Config: O áudio gravado usando um pequeno microfone condensador de diafragma com largura de banda muito larga (Sennheiser MKH 800).

          Two speakers, p280 and p315 had technical issues of the audio
          recordings using MKH 800.
    
  • Tamanho do conjunto de dados: 38.86 GiB

  • desdobramentos:

Dividir Exemplos
'train' 43.873