paws_x_wiki

  • 説明

このデータセットには、23,659の人間が翻訳したPAWS評価ペアと296,406の機械翻訳されたトレーニングペアが6つの類型的に異なる言語で含まれています。

  • フランス語
  • スペイン語
  • ドイツ人
  • 中国語
  • 日本
  • 韓国語

で言い換え同定のためのA言語横断敵対データセット:PAWS-X:詳細については、付属の紙を参照してくださいhttps://arxiv.org/abs/1908.11828

PAWSデータセットと同様に、例はTrain / Dev / Testセクションに分割されています。すべてのファイルは、4つの列を持つtsv形式です。

id各ペアの一意のIDセンテンス1最初のセンテンスセンテンス22番目のセンテンス(noisy_)label(Noisy)各ペアのラベル

各ラベルには2つの可能な値があります。0はペアの意味が異なることを示し、1はペアが言い換えであることを示します。

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki / de(デフォルト設定)

  • コンフィグの説明:デに翻訳

  • データセットサイズ15.27 MiB

  • スプリット

スプリット
'test' 2,000
'train' 49,380
'validation' 2,000

paws_x_wiki / en

  • コンフィグの説明:アンに翻訳

  • データセットサイズ14.59 MiB

  • スプリット

スプリット
'test' 2,000
'train' 49,175
'validation' 2,000

paws_x_wiki / es

  • コンフィグの説明:ESに翻訳

  • データセットサイズ15.27 MiB

  • スプリット

スプリット
'test' 2,000
'train' 49,401
'validation' 1,961

paws_x_wiki / fr

  • コンフィグの説明:FRに翻訳

  • データセットサイズ15.79 MiB

  • スプリット

スプリット
'test' 2,000
'train' 49,399
'validation' 1,988

paws_x_wiki / ja

  • コンフィグの説明:JAに翻訳

  • データセットサイズ17.77 MiB

  • スプリット

スプリット
'test' 2,000
'train' 49,401
'validation' 2,000

paws_x_wiki / ko

  • コンフィグの説明:KOに翻訳

  • データセットサイズ16.42 MiB

  • スプリット

スプリット
'test' 1,999
'train' 49,164
'validation' 2,000

paws_x_wiki / zh

  • コンフィグの説明:ZHに翻訳

  • データセットサイズ13.20 MiB

  • スプリット

スプリット
'test' 2,000
'train' 49,401
'validation' 2,000