Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

zamieszanie

  • opis:

Free Universal Sound Separation (FUSS) Dataset to baza danych arbitralnych mieszanek dźwiękowych i odniesień na poziomie źródłowym do użytku w eksperymentach z arbitralną separacją dźwięku.

To są oficjalne dane dotyczące separacji dźwięków dla zadania DCASE2020 Challenge 4: Wykrywanie i separacja dźwięków w środowiskach domowych.

Informacje ogólne: Dane dźwiękowe FUSS pochodzą ze wstępnej wersji zestawu danych Freesound znanego jako (FSD50k), zestawu danych zdarzeń dźwiękowych złożonego z zawartości Freesound z adnotacjami etykiet z AudioSet Ontology. Używając etykiet FSD50K, te pliki źródłowe zostały odfiltrowane w taki sposób, że prawdopodobnie zawierają tylko jeden rodzaj dźwięku. Etykiety nie są dostarczane dla tych plików źródłowych i nie są uważane za część wyzwania. Dla celów wyzwania DCASE Task4 Sound Separation and Event Detection, systemy nie powinny używać etykiet FSD50K, nawet jeśli mogą one stać się dostępne po wydaniu FSD50K.

Aby stworzyć mikstury, 10-sekundowe klipy źródeł są splatane z symulowanymi odpowiedziami impulsowymi pomieszczenia i dodawane do siebie. Każda 10-sekundowa mieszanina zawiera od 1 do 4 źródeł. Pliki źródłowe dłuższe niż 10 sekund są uważane za źródła „w tle”. Każda mieszanka zawiera jedno źródło tła, które jest aktywne przez cały czas. Zapewniamy: przepis na oprogramowanie do tworzenia zestawu danych, odpowiedzi impulsowe pomieszczenia i oryginalne źródło dźwięku.

Podział Przykłady
'test' 1000
'train' 20 000
'validation' 1000
  • Cechy:
FeaturesDict({
    'id': tf.string,
    'jams': tf.string,
    'mixture_audio': Audio(shape=(160000,), dtype=tf.int16),
    'segments': Sequence({
        'end_time_seconds': tf.float32,
        'label': tf.string,
        'start_time_seconds': tf.float32,
    }),
    'sources': Sequence({
        'audio': Audio(shape=(160000,), dtype=tf.int16),
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    }),
})
\
@inproceedings{wisdom2020fuss,
  title = {What's All the {FUSS} About Free Universal Sound Separation Data?},
  author = {Scott Wisdom and Hakan Erdogan and Daniel P. W. Ellis and Romain Serizel and Nicolas Turpault and Eduardo Fonseca and Justin Salamon and Prem Seetharaman and John R. Hershey},
  year = {2020},
  url = {https://arxiv.org/abs/2011.00803},
}

@inproceedings{fonseca2020fsd50k,
  author = {Eduardo Fonseca and Xavier Favory and Jordi Pons and Frederic Font Corbera and Xavier Serra},
  title = { {FSD}50k: an open dataset of human-labeled sound events},
  year = {2020},
  url = {https://arxiv.org/abs/2010.00475},
}

zamieszanie/pogłos (domyślna konfiguracja)

  • Opis config: Domyślny echem dźwięku.

  • Wielkość pliku: 7.35 GiB

  • Zbiór danych rozmiar: 43.20 GiB

  • Przykłady ( tfds.as_dataframe ):

zamieszanie/nieprzetworzone

  • Opis config: nieprzetworzona audio bez dodatkowych pogłosu.

  • Wielkość pliku: 8.28 GiB

  • Zbiór danych rozmiar: 45.58 GiB

  • Przykłady ( tfds.as_dataframe ):