ljspeech

  • 説明

これは、7冊のノンフィクション本の文章を読んでいる1人の話者の13,100の短いオーディオクリップで構成されるパブリックドメインの音声データセットです。各クリップには文字起こしが用意されています。クリップの長さは1〜10秒で、全長は約24時間です。

テキストは1884年から1964年の間に発行され、パブリックドメインになっています。オーディオは2016-17年にLibriVoxプロジェクトによって録音され、パブリックドメインでもあります。

スプリット
'train' 13,100
  • 特長
FeaturesDict({
    'id': tf.string,
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text': Text(shape=(), dtype=tf.string),
    'text_normalized': Text(shape=(), dtype=tf.string),
})
  • 引用
@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}