एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

लिब्रिट्स

  • विवरण:

LibriTTS एक बहु-स्पीकर अंग्रेजी संग्रह है, जिसमें 24kHz नमूनाकरण दर पर लगभग ५८५ घंटे पढ़े जाने वाले अंग्रेजी भाषण हैं, जिसे Google स्पीच और Google ब्रेन टीम के सदस्यों की सहायता से Heiga Zen द्वारा तैयार किया गया है। LibriTTS कॉर्पस को TTS अनुसंधान के लिए डिज़ाइन किया गया है। यह लिब्रीस्पीच कॉर्पस की मूल सामग्री (लिब्रीवॉक्स से एमपी3 ऑडियो फाइलें और प्रोजेक्ट गुटेनबर्ग की टेक्स्ट फाइलें) से ली गई है। लिब्रीस्पीच कॉर्पस से मुख्य अंतर नीचे सूचीबद्ध हैं:

  1. ऑडियो फ़ाइलें 24kHz नमूनाकरण दर पर हैं।
  2. भाषण वाक्य विराम पर विभाजित है।
  3. मूल और सामान्यीकृत दोनों पाठ शामिल हैं।
  4. प्रासंगिक जानकारी (जैसे, पड़ोसी वाक्य) को निकाला जा सकता है।
  5. महत्वपूर्ण पृष्ठभूमि शोर वाले कथनों को बाहर रखा गया है।
  • होमपेज: http://www.openslr.org/60

  • स्रोत कोड: tfds.audio.Libritts

  • संस्करण:

    • 1.0.1 (डिफ़ॉल्ट): नहीं रिलीज नोट्स।
  • डाउनलोड का आकार: 78.42 GiB

  • डेटासेट का आकार: 271.41 GiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'dev_clean' 5,736
'dev_other' 4,613
'test_clean' 4,837
'test_other' 5,120
'train_clean100' 33,236
'train_clean360' ११६,५००
'train_other500' २०५,०४४
  • विशेषताएं:
FeaturesDict({
    'chapter_id': tf.int64,
    'id': tf.string,
    'speaker_id': tf.int64,
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text_normalized': Text(shape=(), dtype=tf.string),
    'text_original': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}