एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

पुस्तकालय भाषण

  • विवरण:

लिब्रीस्पीच लगभग 1000 घंटे के अंग्रेजी भाषण को पढ़ने के लिए 16 kHz की नमूना दर के साथ एक संग्रह है, जिसे वासिल पानायोटोव द्वारा डैनियल पोवी की सहायता से तैयार किया गया है। डेटा लिब्रीवॉक्स प्रोजेक्ट से पढ़ी गई ऑडियोबुक से लिया गया है, और इसे सावधानीपूर्वक खंडित और संरेखित किया गया है।87

  • होमपेज: http://www.openslr.org/12

  • स्रोत कोड: tfds.audio.Librispeech

  • संस्करण:

    • 2.1.0 (डिफ़ॉल्ट): नहीं रिलीज नोट्स।
  • डाउनलोड का आकार: 57.14 GiB

  • डेटासेट का आकार: 304.47 GiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'dev_clean' 2,703
'dev_other' २,८६४
'test_clean' 2,620
'test_other' २,९३९
'train_clean100' २८,५३९
'train_clean360' 104,014
'train_other500' १४८,६८८
  • विशेषताएं:
FeaturesDict({
    'chapter_id': tf.int64,
    'id': tf.string,
    'speaker_id': tf.int64,
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@inproceedings{panayotov2015librispeech,
  title={Librispeech: an ASR corpus based on public domain audio books},
  author={Panayotov, Vassil and Chen, Guoguo and Povey, Daniel and Khudanpur, Sanjeev},
  booktitle={Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on},
  pages={5206--5210},
  year={2015},
  organization={IEEE}
}