Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

ljspeech

  • opis:

Jest to zbiór danych dotyczących mowy w domenie publicznej, składający się z 13 100 krótkich klipów dźwiękowych jednego mówcy czytającego fragmenty z 7 książek non-fiction. Do każdego klipu dołączona jest transkrypcja. Klipy różnią się długością od 1 do 10 sekund i mają łączną długość około 24 godzin.

Teksty zostały opublikowane w latach 1884-1964 i znajdują się w domenie publicznej. Dźwięk został nagrany w latach 2016-17 przez projekt LibriVox i jest również w domenie publicznej.

Podział Przykłady
'train' 13.100
  • Cechy:
FeaturesDict({
    'id': tf.string,
    'speech': Audio(shape=(None,), dtype=tf.int64),
    'text': Text(shape=(), dtype=tf.string),
    'text_normalized': Text(shape=(), dtype=tf.string),
})
  • cytat:
@misc{ljspeech17,
  author       = {Keith Ito},
  title        = {The LJ Speech Dataset},
  howpublished = {\url{https://keithito.com/LJ-Speech-Dataset/} },
  year         = 2017
}