- Descriptif :
L'ensemble de données Schema-Guided Dialogue (SGD) se compose de plus de 20 000 conversations annotées multi-domaines et axées sur les tâches entre un humain et un assistant virtuel. Ces conversations impliquent des interactions avec des services et des API couvrant 20 domaines, allant des banques et des événements aux médias, au calendrier, aux voyages et à la météo. Pour la plupart de ces domaines, l'ensemble de données contient plusieurs API différentes, dont beaucoup ont des fonctionnalités qui se chevauchent mais des interfaces différentes, ce qui reflète des scénarios courants du monde réel. La large gamme d'annotations disponibles peut être utilisée pour la prédiction d'intention, le remplissage des créneaux, le suivi de l'état du dialogue, l'apprentissage par imitation de politique, la génération de langage, l'apprentissage par simulation d'utilisateur, entre autres tâches dans des assistants virtuels à grande échelle. En plus de cela, l'ensemble de données a des domaines et des services invisibles dans l'ensemble d'évaluation pour quantifier les performances dans des paramètres de tir zéro ou peu de tir.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://github.com/google-research-datasets/dstc8-schema-guided-dialogue
Code source :
tfds.datasets.schema_guided_dialogue.Builder
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
35.12 MiB
Taille du jeu de données :
25.36 MiB
Mise en cache automatique ( documentation ): Oui
Fractionnements :
Diviser | Exemples |
---|---|
'dev' | 2 482 |
'test' | 4 201 |
'train' | 16 142 |
- Structure des fonctionnalités :
FeaturesDict({
'first_speaker': ClassLabel(shape=(), dtype=int64, num_classes=2),
'metadata': FeaturesDict({
'services': Sequence({
'name': string,
}),
}),
'utterances': Sequence(Text(shape=(), dtype=string)),
})
- Documentation des fonctionnalités :
Caractéristique | Classe | Façonner | Dtype | Description |
---|---|---|---|---|
FonctionnalitésDict | ||||
premier_orateur | Étiquette de classe | int64 | ||
métadonnées | FonctionnalitésDict | |||
métadonnées/services | Séquence | |||
métadonnées/services/nom | Tenseur | chaîne de caractères | ||
énoncés | Séquence (texte) | (Aucun,) | chaîne de caractères |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Exemples ( tfds.as_dataframe ):
- Citation :
@article{rastogi2019towards,
title={Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset},
author={Rastogi, Abhinav and Zang, Xiaoxue and Sunkara, Srinivas and Gupta, Raghav and Khaitan, Pranav},
journal={arXiv preprint arXiv:1909.05855},
year={2019}
}