gtzan

  • 説明:

データセットは、30 秒ごとに 1000 のオーディオ トラックで構成されます。 10 のジャンルが含まれており、それぞれが 100 のトラックで表されます。トラックはすべて、.wav 形式の 22050Hz モノラル 16 ビット オーディオ ファイルです。

ジャンルは次のとおりです。

スプリット
'train' 1,000
  • 機能構造:
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'audio/filename': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=10),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
オーディオオーディオ(なし、) int64
オーディオ/ファイル名文章ストリング
ラベルクラスラベルint64
  • 引用
@misc{tzanetakis_essl_cook_2001,
author    = "Tzanetakis, George and Essl, Georg and Cook, Perry",
title     = "Automatic Musical Genre Classification Of Audio Signals",
url       = "http://ismir2001.ismir.net/pdf/tzanetakis.pdf",
publisher = "The International Society for Music Information Retrieval",
year      = "2001"
}