libritts

  • 説明

LibriTTSは、GoogleSpeechとGoogleBrainチームのメンバーの支援を受けてHeigaZenが作成した、24kHzのサンプリングレートで約585時間の英語の読み上げのマルチスピーカー英語コーパスです。 LibriTTSコーパスは、TTS研究用に設計されています。これは、LibriSpeechコーパスの元の資料(LibriVoxのmp3オーディオファイルとProject Gutenbergのテキストファイル)から派生しています。 LibriSpeechコーパスとの主な違いは次のとおりです。

  1. オーディオファイルは24kHzのサンプリングレートです。
  2. スピーチは文の区切りで分割されます。
  3. 元のテキストと正規化されたテキストの両方が含まれています。
  4. 文脈情報(例えば、隣接する文)を抽出することができます。
  5. 重大なバックグラウンドノイズのある発話は除外されます。
  • ホームページhttp://www.openslr.org/60

  • ソースコードtfds.audio.Libritts

  • バージョン

    • 1.0.1 (デフォルト):リリースノート。
  • ダウンロードサイズ78.42 GiB

  • データセットのサイズ271.41 GiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'dev_clean' 5,736
'dev_other' 4,613
'test_clean' 4,837
'test_other' 5,120
'train_clean100' 33,236
'train_clean360' 116,500
'train_other500' 205,044
  • 特長
FeaturesDict({
    'chapter_id': tf.int64,
    'id': tf.string,
    'speaker_id': tf.int64,
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text_normalized': Text(shape=(), dtype=tf.string),
    'text_original': Text(shape=(), dtype=tf.string),
})
  • 引用
@inproceedings{zen2019libritts,
  title = {LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech},
  author = {H. Zen and V. Dang and R. Clark and Y. Zhang and R. J. Weiss and Y. Jia and Z. Chen and Y. Wu},
  booktitle = {Proc. Interspeech},
  month = sep,
  year = {2019},
  doi = {10.21437/Interspeech.2019-2441},
}