schema_guided_dialogue

  • Description:

L'ensemble de données Schema-Guided Dialogue (SGD) se compose de plus de 20 000 conversations multi-domaines annotées et axées sur les tâches entre un assistant humain et un assistant virtuel. Ces conversations impliquent des interactions avec des services et des API couvrant 20 domaines, allant des banques et des événements aux médias, au calendrier, aux voyages et à la météo. Pour la plupart de ces domaines, l'ensemble de données contient plusieurs API différentes, dont beaucoup ont des fonctionnalités qui se chevauchent mais des interfaces différentes, ce qui reflète des scénarios communs du monde réel. La large gamme d'annotations disponibles peut être utilisée pour la prédiction d'intention, le remplissage de créneaux, le suivi de l'état du dialogue, l'apprentissage par imitation de politique, la génération de langage, l'apprentissage par simulation utilisateur, entre autres tâches dans les assistants virtuels à grande échelle. En plus de ceux-ci, l'ensemble de données a des domaines et des services invisibles dans l'ensemble d'évaluation pour quantifier les performances dans des paramètres de tir zéro ou peu de tirs.

Diviser Exemples
'dev' 2 482
'test' 4 201
'train' 16 142
  • Caractéristiques:
FeaturesDict({
    'first_speaker': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'metadata': FeaturesDict({
        'services': Sequence({
            'name': tf.string,
        }),
    }),
    'utterances': Sequence(Text(shape=(), dtype=tf.string)),
})
  • citation:
@article{rastogi2019towards,
  title={Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset},
  author={Rastogi, Abhinav and Zang, Xiaoxue and Sunkara, Srinivas and Gupta, Raghav and Khaitan, Pranav},
  journal={arXiv preprint arXiv:1909.05855},
  year={2019}
}