librishabla

  • Descripción :

LibriSpeech es un corpus de aproximadamente 1000 horas de habla inglesa leída con una frecuencia de muestreo de 16 kHz, preparado por Vassil Panayotov con la ayuda de Daniel Povey. Los datos se derivan de audiolibros leídos del proyecto LibriVox y se han segmentado y alineado cuidadosamente.

  • Página de inicio : http://www.openslr.org/12

  • Código fuente : tfds.audio.Librispeech

  • Versiones :

    • 2.1.1 (predeterminado) : Corrija el tipo de datos de voz con dtype=tf.int16.
  • Tamaño de descarga : 57.14 GiB

  • Tamaño del conjunto de datos : 304.47 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'dev_clean' 2,703
'dev_other' 2,864
'test_clean' 2,620
'test_other' 2,939
'train_clean100' 28,539
'train_clean360' 104,014
'train_other500' 148,688
  • Estructura de características :
FeaturesDict({
    'chapter_id': tf.int64,
    'id': tf.string,
    'speaker_id': tf.int64,
    'speech': Audio(shape=(None,), dtype=tf.int16),
    'text': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
id_capítulo Tensor tf.int64
identificación Tensor tf.cadena
altavoz_id Tensor tf.int64
discurso Audio (Ninguna,) tf.int16
texto Texto tf.cadena
  • Cita :
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}