xquad

  • 説明

XQuAD(クロスリンガル質問応答データセット)は、クロスリンガル質問応答パフォーマンスを評価するためのベンチマークデータセットです。データセットは、SQuAD v1.1(Rajpurkar et al。、2016)の開発セットからの240段落のサブセットと1190の質問と回答のペア、およびスペイン語、ドイツ語、ギリシャ語、ロシア語、トルコ語への専門的な翻訳で構成されています。 、アラビア語、ベトナム語、タイ語、中国語、ヒンディー語。その結果、データセットは11の言語間で完全に並列になります。デフォルトのゼロショットの設定でXQuADを実行するには、ここでSQUAD V1.1の訓練および検証データを使用します。 https://www.tensorflow.org/datasets/catalog/squad

また、XTREMEの英語以外の言語ごとに「translate-train」、「translate-dev」、および「translate-test」の分割が含まれています(Hu et al。、2020)。これらは、「translate-train」または「translate-test」設定でXQuADを実行するために使用できます。

  • ホームページhttps://github.com/deepmind/xquad

  • ソースコードtfds.question_answering.Xquad

  • バージョン

    • 3.0.0 (デフォルト):回答スパンがコンテキストの空白除去に起因するずれている例の数との問題を修正。この変更は、テスト例の約14%に影響を与えます。
  • 特長

FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

xquad / ar(デフォルト設定)

  • 設定の説明:XQuAD 'Ar'はテスト分割、XTREMEから機械翻訳翻訳トレイン/翻訳-DEV /翻訳テスト分割有する(Huら、2020)。

  • ダウンロードサイズ420.97 MiB

  • データセットのサイズ134.83 MiB

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'test' 1,190
'translate-dev' 10,541
'translate-test' 1,151
'translate-train' 86,787

xquad / de

  • 設定の説明:(Huら、2020)XQuAD 'ド'テスト分割、XTREMEから機械翻訳翻訳トレイン/翻訳-DEV /翻訳テスト分割有します。

  • ダウンロードサイズ127.04 MiB

  • データセットサイズ98.80 MiB

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'test' 1,190
'translate-dev' 10,371
'translate-test' 1,168
'translate-train' 82,603

xquad / el

  • 設定の説明:XQuAD 'EL'テスト分割、XTREMEから機械翻訳翻訳トレイン/翻訳-DEV /翻訳テスト分割(Huら、2020)を有します。

  • ダウンロードサイズ499.40 MiB

  • データセットのサイズ157.90 MiB

  • オートキャッシュされたドキュメント):はい(テスト、翻訳-devを、翻訳検定)、ときにのみshuffle_files=False (翻訳トレイン)

  • スプリット

スプリット
'test' 1,190
'translate-dev' 10,100
'translate-test' 1,182
'translate-train' 79,946

xquad / es

  • 設定の説明:XQuAD 'ES'テスト分割、XTREMEから機械翻訳翻訳トレイン/翻訳-DEV /翻訳テスト分割(Huら、2020)を有します。

  • ダウンロードサイズ138.41 MiB

  • データセットのサイズ104.96 MiB

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'test' 1,190
'translate-dev' 10,566
'translate-test' 1,188
'translate-train' 87,488

xquad / hi

  • 設定の説明:XQuAD 'HI'テスト分割、XTREMEから機械翻訳翻訳トレイン/翻訳-DEV /翻訳テスト分割有する(Huら、2020)。

  • ダウンロードサイズ472.23 MiB

  • データセットのサイズ207.85 MiB

  • オートキャッシュされたドキュメント):はい(テスト、翻訳-devを、翻訳検定)、ときにのみshuffle_files=False (翻訳トレイン)

  • スプリット

スプリット
'test' 1,190
'translate-dev' 10,536
'translate-test' 1,184
'translate-train' 85,804

xquad / ru

  • 設定の説明:XQuAD 'RU'テスト分割、XTREMEから機械翻訳翻訳トレイン/翻訳-DEV /翻訳テスト分割(Huら、2020)を有します。

  • ダウンロードサイズ513.80 MiB

  • データセットのサイズ159.38 MiB

  • オートキャッシュされたドキュメント):はい(テスト、翻訳-devを、翻訳検定)、ときにのみshuffle_files=False (翻訳トレイン)

  • スプリット

スプリット
'test' 1,190
'translate-dev' 10,469
'translate-test' 1,190
'translate-train' 84,869

xquad / th

  • 設定の説明:XQuAD '番目'テスト分割、XTREMEから機械翻訳翻訳トレイン/翻訳-DEV /翻訳テスト分割有する(Huら、2020)。

  • ダウンロードサイズ461.54 MiB

  • データセットのサイズ199.57 MiB

  • オートキャッシュされたドキュメント):はい(テスト、翻訳-devを、翻訳検定)、ときにのみshuffle_files=False (翻訳トレイン)

  • スプリット

スプリット
'test' 1,190
'translate-dev' 10,516
'translate-test' 1,157
'translate-train' 85,846

xquad / tr

  • 設定の説明:XQuAD 'TR'テスト分割、XTREMEから機械翻訳翻訳トレイン/翻訳-DEV /翻訳テスト分割有する(Huら、2020)。

  • ダウンロードサイズ151.08 MiB

  • データセットサイズ97.56 MiB

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'test' 1,190
'translate-dev' 10,535
'translate-test' 1,112
'translate-train' 86,511

xquad / vi

  • 設定の説明:XQuAD 'VI'テスト分割、XTREMEから機械翻訳翻訳トレイン/翻訳-DEV /翻訳テスト分割有する(Huら、2020)。

  • ダウンロードサイズ218.09 MiB

  • データセットのサイズ120.03 MiB

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'test' 1,190
'translate-dev' 10,555
'translate-test' 1,178
'translate-train' 87,187

xquad / zh

  • 設定の説明:XQuAD 'ZH'テスト分割、XTREMEから機械翻訳翻訳トレイン/翻訳-DEV /翻訳テスト分割有する(Huら、2020)。

  • ダウンロードサイズ174.57 MiB

  • データセットサイズ80.79 MiB

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'test' 1,190
'translate-dev' 10,475
'translate-test' 1,186
'translate-train' 85,700

xquad / en

  • コンフィグの説明:XQuAD「en」とテスト分割。

  • ダウンロードサイズ595.10 KiB

  • データセットサイズ1.19 MiB

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'test' 1,190