Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

mówiona_cyfra

  • opis:

Bezpłatny zestaw danych dźwiękowych z mówionymi cyframi. Pomyśl o MNIST dla dźwięku.

Prosty zestaw danych audio/mowy składający się z nagrań wypowiadanych cyfr w plikach wav przy częstotliwości 8 kHz. Nagrania są przycięte tak, aby na początku i na końcu miały niemal minimalną ciszę.

5 mówców 2500 nagrań (50 każdej cyfry na mówcę) Wymowa w języku angielskim

Pliki są nazywane w następującym formacie: {digitLabel} {głośnika} {index} .wav

Podział Przykłady
'train' 2500
  • Cechy:
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=tf.int64),
    'audio/filename': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=10),
})
  • cytat:
@ONLINE {Free Spoken Digit Dataset,
    author = "Zohar Jackson",
    title  = "Spoken_Digit",
    year   = "2016",
    url    = "https://github.com/Jakobovski/free-spoken-digit-dataset"
}