セーブ

  • 説明:

SAVEE (Surrey Audio-Visual Expressed Emotion) は、感情認識データセットです。 4 人の男性俳優の 7 つの異なる感情の録音、合計 480 のイギリス英語の発話で構成されています。文は標準の TIMIT コーパスから選択され、各感情の音声学的にバランスが取れています。このリリースには、元のオーディオビジュアル録音からのオーディオ ストリームのみが含まれています。

データは、トレーニング セットが 2 人の話者で構成され、検証セットとテスト セットの両方がそれぞれ 1 人の話者からのサンプルで構成されるように分割されます。

  • 追加のドキュメント:コードを使用したペーパーの探索

  • ホームページ: http://kahlan.eps.surrey.ac.uk/savee/

  • ソースコード: tfds.datasets.savee.Builder

  • バージョン:

    • 1.0.0 (デフォルト): リリース ノートはありません。
  • ダウンロードサイズ: サイズUnknown size

  • データセットのサイズ: 259.15 MiB

  • 手動ダウンロードの手順: このデータセットでは、ソース データを手動でdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ) にダウンロードする必要があります。
    manual_dir にはファイル AudioData.zip が含まれている必要があります。このファイルは、登録時に提供されたデータセット フォルダーの Data/Zip/AudioData.zip の下にある必要があります。データセットをダウンロードするためのリンクを取得するには、 http://personal.ee.surrey.ac.uk/Personal/P.Jackson/SAVEE/Register.htmlで登録する必要があります。

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'test' 120
'train' 240
'validation' 120
  • 機能構造:
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=7),
    'speaker_id': string,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
オーディオオーディオ(なし、) int64
ラベルクラスラベルint64
Speaker_idテンソルストリング
  • 引用
@inproceedings{Vlasenko_combiningframe,
author = {Vlasenko, Bogdan and Schuller, Bjorn and Wendemuth, Andreas and Rigoll, Gerhard},
year = {2007},
month = {01},
pages = {2249-2252},
title = {Combining frame and turn-level information for robust recognition of emotions within speech},
journal = {Proceedings of Interspeech}
}