mlqa

  • 説明

MLQA(Multilingual Question Answering Dataset)は、多言語の質問応答パフォーマンスを評価するためのベンチマークデータセットです。データセットは、アラビア語、ドイツ語、スペイン語、英語、ヒンディー語、ベトナム語、中国語の7つの言語で構成されています。

FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
@article{lewis2019mlqa,
  title={MLQA: Evaluating Cross-lingual Extractive Question Answering},
  author={Lewis, Patrick and Ouguz, Barlas and Rinott, Ruty and Riedel,   Sebastian and Schwenk, Holger},
  journal={arXiv preprint arXiv:1910.07475},
  year={2019}
}

mlqa / ar(デフォルト設定)

  • コンフィグの説明:MLQA「AR」DEVとテスト分割。

  • データセットサイズ9.27 MiB

  • スプリット

スプリット
'test' 5,335
'validation' 517

mlqa / de

  • コンフィグの説明:MLQA「デ・DEVとテスト分割。

  • データセットサイズ5.06 MiB

  • スプリット

スプリット
'test' 4,517
'validation' 512

mlqa / en

  • コンフィグの説明:MLQA(EN)DEVとテスト分割。

  • データセットサイズ15.72 MiB

  • スプリット

スプリット
'test' 11,590
'validation' 1,148

mlqa / es

  • コンフィグの説明:MLQA「ES」DEVとテスト分割。

  • データセットサイズ5.09 MiB

  • スプリット

スプリット
'test' 5,253
'validation' 500

mlqa / hi

  • コンフィグの説明:MLQA「HI」DEVとテスト分割。

  • データセットサイズ12.83 MiB

  • スプリット

スプリット
'test' 4,918
'validation' 507

mlqa / vi

  • コンフィグの説明:MLQA「VI」DEVとテスト分割。

  • データセットサイズ8.77 MiB

  • スプリット

スプリット
'test' 5,495
'validation' 511

mlqa / zh

  • コンフィグの説明:MLQA「ZH」DEVとテスト分割。

  • データセットサイズ5.13 MiB

  • スプリット

スプリット
'test' 5,137
'validation' 504