gtzan

  • Mô tả :

Bộ dữ liệu bao gồm 1000 bản âm thanh, mỗi bản dài 30 giây. Nó chứa 10 thể loại, mỗi thể loại được thể hiện bằng 100 bản nhạc. Các bản nhạc đều là tệp âm thanh Mono 16-bit 22050Hz ở định dạng .wav.

Các thể loại là:

Tách ra ví dụ
'train' 1.000
  • Cấu trúc tính năng :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
âm thanh âm thanh (Không có,) int64
âm thanh/tên tệp Chữ sợi dây
nhãn mác LớpNhãn int64
  • trích dẫn :
@misc{tzanetakis_essl_cook_2001,
author    = "Tzanetakis, George and Essl, Georg and Cook, Perry",
title     = "Automatic Musical Genre Classification Of Audio Signals",
url       = "http://ismir2001.ismir.net/pdf/tzanetakis.pdf",
publisher = "The International Society for Music Information Retrieval",
year      = "2001"
}