gtzan_music_speech

  • 설명 :

데이터 세트는 음악/음성 식별을 위해 수집되었습니다. 데이터 세트는 각각 길이가 30초인 120개의 트랙으로 구성됩니다. 각 클래스(음악/스피치)에는 60개의 예제가 있습니다. 트랙은 모두 .wav 형식의 22050Hz 모노 16비트 오디오 파일입니다.

나뉘다
'train' 128
  • 기능 구조 :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
오디오 오디오 (없음,) int64
오디오/파일 이름 텍스트
상표 클래스 레이블 int64
  • 인용 :
@ONLINE {Music Speech,
    author = "Tzanetakis, George",
    title  = "GTZAN Music/Speech Collection",
    year   = "1999",
    url    = "http://marsyas.info/index.html"
}