sauve

  • Description:

SAVEE (Surrey Audio-Visual Expressed Emotion) est un ensemble de données de reconnaissance des émotions. Il se compose d'enregistrements de 4 acteurs masculins dans 7 émotions différentes, 480 énoncés en anglais britannique au total. Les phrases ont été choisies dans le corpus TIMIT standard et équilibrées phonétiquement pour chaque émotion. Cette version ne contient que le flux audio de l'enregistrement audiovisuel original. Les données sont divisées de sorte que l'ensemble d'apprentissage se compose de 2 locuteurs et que l'ensemble de validation et de test se compose d'échantillons d'un locuteur, respectivement.

  • Page d' accueil: http://kahlan.eps.surrey.ac.uk/savee/

  • Code source: tfds.audio.Savee

  • versions:

    • 1.0.0 (par défaut): Aucune note de version.
  • Taille du téléchargement: Unknown size

  • Dataset Taille: 259.15 MiB

  • Instructions de téléchargement Manuel: Cet ensemble de données , vous devez télécharger les données source manuellement dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir doit contenir le fichier AudioData.zip. Ce fichier doit se trouver sous Data/Zip/AudioData.zip dans le dossier de l'ensemble de données fourni lors de l'inscription. Vous devez vous inscrire à http://personal.ee.surrey.ac.uk/Personal/P.Jackson/SAVEE/Register.html afin d'obtenir le lien pour télécharger le jeu de données.

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 120
'train' 240
'validation' 120
  • Caractéristiques:
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=tf.int64),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=7),
    'speaker_id': tf.string,
})
  • citation:
@inproceedings{Vlasenko_combiningframe,
author = {Vlasenko, Bogdan and Schuller, Bjorn and Wendemuth, Andreas and Rigoll, Gerhard},
year = {2007},
month = {01},
pages = {2249-2252},
title = {Combining frame and turn-level information for robust recognition of emotions within speech},
journal = {Proceedings of Interspeech}
}