schema_g​​uided_dialogue

  • 説明

Schema-Guided Dialogue(SGD)データセットは、人間と仮想アシスタントの間の2万を超える注釈付きマルチドメインのタスク指向の会話で構成されています。これらの会話には、銀行やイベントからメディア、カレンダー、旅行、天気に至るまで、20のドメインにまたがるサービスやAPIとのやり取りが含まれます。これらのドメインのほとんどで、データセットには複数の異なるAPIが含まれています。その多くは機能が重複していますが、インターフェースが異なり、一般的な実際のシナリオを反映しています。利用可能な幅広い注釈は、大規模な仮想アシスタントのその他のタスクの中でも、意図予測、スロット充填、対話状態の追跡、ポリシー模倣学習、言語生成、ユーザーシミュレーション学習に使用できます。これらに加えて、データセットには、ゼロショットまたは少数ショットの設定でのパフォーマンスを定量化するための評価セットに、目に見えないドメインとサービスがあります。

スプリット
'dev' 2,482
'test' 4,201
'train' 16,142
  • 特長
FeaturesDict({
    'first_speaker': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'metadata': FeaturesDict({
        'services': Sequence({
            'name': tf.string,
        }),
    }),
    'utterances': Sequence(Text(shape=(), dtype=tf.string)),
})
  • 引用
@article{rastogi2019towards,
  title={Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset},
  author={Rastogi, Abhinav and Zang, Xiaoxue and Sunkara, Srinivas and Gupta, Raghav and Khaitan, Pranav},
  journal={arXiv preprint arXiv:1909.05855},
  year={2019}
}