crema_d

  • 説明:

CREMA-D は、感情認識用の視聴覚データ セットです。データセットは、さまざまな基本的な感情状態 (幸せ、悲しい、怒り、恐怖、嫌悪、中立) で話された文章の顔と声の感情表現で構成されています。多様な民族的背景を持つ 91 人の俳優の 7,442 のクリップが収集されました。このリリースには、元のオーディオビジュアル録音からのオーディオ ストリームのみが含まれています。サンプルは、各スピーカーからのサンプルが正確に 1 つの分割に属するように、トレーニング、検証、およびテストに分割されます。

スプリット
'test' 1,556
'train' 5,144
'validation' 738
  • 機能構造:
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'speaker_id': string,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
オーディオオーディオ(なし、) int64
ラベルクラスラベルint64
Speaker_idテンソルストリング
  • 引用
@article{cao2014crema,
  title={ {CREMA-D}: Crowd-sourced emotional multimodal actors dataset},
  author={Cao, Houwei and Cooper, David G and Keutmann, Michael K and Gur, Ruben C and Nenkova, Ani and Verma, Ragini},
  journal={IEEE transactions on affective computing},
  volume={5},
  number={4},
  pages={377--390},
  year={2014},
  publisher={IEEE}
}