Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

librity

  • opis:

LibriTTS to wielogłosowy korpus języka angielskiego zawierający około 585 godzin odczytywanej mowy w języku angielskim z częstotliwością próbkowania 24 kHz, przygotowany przez Heiga Zen z pomocą członków zespołu Google Speech i Google Brain. Korpus LibriTTS jest przeznaczony do badań TTS. Pochodzi z oryginalnych materiałów (pliki audio mp3 z LibriVox i pliki tekstowe z Projektu Gutenberg) korpusu LibriSpeech. Poniżej wymieniono główne różnice w stosunku do korpusu LibriSpeech:

  1. Pliki audio mają częstotliwość próbkowania 24 kHz.
  2. Przemówienie jest dzielone na przerwach w zdaniu.
  3. Uwzględniono zarówno teksty oryginalne, jak i znormalizowane.
  4. Można wyodrębnić informacje kontekstowe (np. sąsiednie zdania).
  5. Wyklucza się wypowiedzi ze znacznym hałasem w tle.
Podział Przykłady
'dev_clean' 5736
'dev_other' 4613
'test_clean' 4837
'test_other' 5120
'train_clean100' 33 236
'train_clean360' 116 500
'train_other500' 205 044
  • Cechy:
FeaturesDict({
    'chapter_id': tf.int64,
    'id': tf.string,
    'speaker_id': tf.int64,
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text_normalized': Text(shape=(), dtype=tf.string),
    'text_original': Text(shape=(), dtype=tf.string),
})
  • cytat:
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}