crema_d

Описание :

CREMA-D — это набор аудиовизуальных данных для распознавания эмоций. Набор данных состоит из лицевых и голосовых эмоциональных выражений в предложениях, произносимых в различных основных эмоциональных состояниях (счастливом, грустном, гневе, страхе, отвращении и нейтральном). Было собрано 7 442 клипа 91 актера разного этнического происхождения. Этот релиз содержит только аудиопоток из оригинальной аудиовизуальной записи. Образцы разделены между обучением, проверкой и тестированием, так что образцы от каждого спикера принадлежат ровно одному сплиту.

Дополнительная документация : изучить документы с кодом
Домашняя страница : https://github.com/CheyneyComputerScience/CREMA-D
Исходный код : tfds.audio.CremaD
Версии :
- 1.0.0 (по умолчанию): нет примечаний к выпуску.
Размер загрузки : 579.25 MiB
Размер набора данных : 1.65 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'test'`	1556
`'train'`	5144
`'validation'`	738

Структура функции :

FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'speaker_id': string,
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
аудио	Аудио	(Никто,)	int64
этикетка	Метка класса		int64
спикер_ид	Тензор		нить

Контролируемые ключи (см . документ as_supervised ): ('audio', 'label')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):

Цитата :

@article{cao2014crema,
  title={ {CREMA-D}: Crowd-sourced emotional multimodal actors dataset},
  author={Cao, Houwei and Cooper, David G and Keutmann, Michael K and Gur, Ruben C and Nenkova, Ani and Verma, Ragini},
  journal={IEEE transactions on affective computing},
  volume={5},
  number={4},
  pages={377--390},
  year={2014},
  publisher={IEEE}
}