schema_g​​uided_dialogue

  • 説明:

Schema-Guided Dialogue (SGD) データセットは、人間と仮想アシスタントの間の 20,000 を超える注釈付きマルチドメインのタスク指向の会話で構成されています。これらの会話には、銀行やイベントからメディア、カレンダー、旅行、天気に至るまで、20 のドメインにわたるサービスや API とのやり取りが含まれます。これらのドメインのほとんどで、データセットには複数の異なる API が含まれており、その多くは機能が重複していますが、インターフェイスは異なり、一般的な現実のシナリオを反映しています。利用可能な幅広いアノテーションは、大規模な仮想アシスタントの他のタスクの中でも特に、意図予測、スロット充填、対話状態追跡、ポリシー模倣学習、言語生成、ユーザー シミュレーション学習に使用できます。これらに加えて、データセットには、ゼロ ショットまたは少数のショット設定でのパフォーマンスを定量化するための評価セット内の目に見えないドメインとサービスがあります。

スプリット
'dev' 2,482
'test' 4,201
'train' 16,142
  • 機能構造:
FeaturesDict({
    'first_speaker': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'metadata': FeaturesDict({
        'services': Sequence({
            'name': string,
        }),
    }),
    'utterances': Sequence(Text(shape=(), dtype=string)),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
最初のスピーカークラスラベルint64
メタデータ特徴辞書
メタデータ/サービス順序
メタデータ/サービス/名前テンソルストリング
発話シーケンス(テキスト) (なし、)ストリング
  • 引用
@article{rastogi2019towards,
  title={Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset},
  author={Rastogi, Abhinav and Zang, Xiaoxue and Sunkara, Srinivas and Gupta, Raghav and Khaitan, Pranav},
  journal={arXiv preprint arXiv:1909.05855},
  year={2019}
}