librispeech

  • Descriptif :

LibriSpeech est un corpus d'environ 1000 heures de parole en anglais lu avec un taux d'échantillonnage de 16 kHz, préparé par Vassil Panayotov avec l'aide de Daniel Povey. Les données sont dérivées de livres audio lus du projet LibriVox et ont été soigneusement segmentées et alignées.

Il est recommandé d'utiliser le décodage audio paresseux pour une lecture plus rapide et une taille de jeu de données plus petite : - installez la bibliothèque tensorflow_io : pip install tensorflow-io - activez le décodage paresseux : tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Diviser Exemples
'dev_clean' 2 703
'dev_other' 2 864
'test_clean' 2 620
'test_other' 2 939
'train_clean100' 28 539
'train_clean360' 104 014
'train_other500' 148 688
  • Structure des fonctionnalités :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classe Façonner Dtype Description
FonctionnalitésDict
chapitre_id Tenseur int64
identifiant Tenseur chaîne de caractères
id_haut-parleur Tenseur int64
parole l'audio (Aucun,) int16
texte Texte chaîne de caractères
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (configuration par défaut)

  • Description de la configuration : jeu de données par défaut.

  • Versions :

    • 2.1.1 (par défaut) : Correction du type de données vocales avec dtype=tf.int16.
    • 2.1.2 : Ajout de la configuration 'lazy_decode'.
  • Taille du jeu de données : 304.47 GiB

  • Exemples ( tfds.as_dataframe ):

librispeech/lazy_decode

  • Description de la configuration : ensemble de données audio brutes.

  • Versions :

    • 2.1.1 : Correction du type de données vocales avec dtype=tf.int16.
    • 2.1.2 (par défaut) : Ajout de la configuration 'lazy_decode'.
  • Taille du jeu de données : 59.37 GiB

  • Exemples ( tfds.as_dataframe ) : Manquant.

,

  • Descriptif :

LibriSpeech est un corpus d'environ 1000 heures de parole en anglais lu avec un taux d'échantillonnage de 16 kHz, préparé par Vassil Panayotov avec l'aide de Daniel Povey. Les données sont dérivées de livres audio lus du projet LibriVox et ont été soigneusement segmentées et alignées.

Il est recommandé d'utiliser le décodage audio paresseux pour une lecture plus rapide et une taille de jeu de données plus petite : - installez la bibliothèque tensorflow_io : pip install tensorflow-io - activez le décodage paresseux : tfds.load('librispeech', builder_kwargs={'config': 'lazy_decode'})

Diviser Exemples
'dev_clean' 2 703
'dev_other' 2 864
'test_clean' 2 620
'test_other' 2 939
'train_clean100' 28 539
'train_clean360' 104 014
'train_other500' 148 688
  • Structure des fonctionnalités :
FeaturesDict({
    'chapter_id': int64,
    'id': string,
    'speaker_id': int64,
    'speech': Audio(shape=(None,), dtype=int16),
    'text': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classe Façonner Dtype Description
FonctionnalitésDict
chapitre_id Tenseur int64
identifiant Tenseur chaîne de caractères
id_haut-parleur Tenseur int64
parole l'audio (Aucun,) int16
texte Texte chaîne de caractères
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}

librispeech/default (configuration par défaut)

  • Description de la configuration : jeu de données par défaut.

  • Versions :

    • 2.1.1 (par défaut) : Correction du type de données vocales avec dtype=tf.int16.
    • 2.1.2 : Ajout de la configuration 'lazy_decode'.
  • Taille du jeu de données : 304.47 GiB

  • Exemples ( tfds.as_dataframe ):

librispeech/lazy_decode

  • Description de la configuration : ensemble de données audio brutes.

  • Versions :

    • 2.1.1 : Correction du type de données vocales avec dtype=tf.int16.
    • 2.1.2 (par défaut) : Ajout de la configuration 'lazy_decode'.
  • Taille du jeu de données : 59.37 GiB

  • Exemples ( tfds.as_dataframe ) : Manquant.