paws_x_wiki

  • 説明:

このデータセットには、人間が翻訳した 23,659 の PAWS 評価ペアと、類型的に異なる 6 つの言語による機械翻訳された 296,406 のトレーニング ペアが含まれています。

  • フランス語
  • スペイン語
  • ドイツ人
  • 中国語
  • 日本
  • 韓国語

詳細については、付属の論文を参照してください: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification ( https://arxiv.org/abs/1908.11828)

PAWS データセットと同様に、例はトレーニング/開発/テストのセクションに分かれています。すべてのファイルは、次の 4 つの列を持つ tsv 形式です。

  1. id : 各ペアの一意の ID。
  2. sentence1 1 : 最初の文。
  3. sentence2 2 : 2番目の文。
  4. (noisy_)label : 各ペアの (Noisy) ラベル。

各ラベルには 2 つの可能な値があります。0 はペアが異なる意味を持つことを示し、1 はペアが言い換えであることを示します。

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
ラベルクラスラベルint64
センテンス1文章ストリング
センテンス2文章ストリング
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (デフォルト設定)

  • 構成の説明: de に翻訳

  • データセットサイズ: 15.27 MiB

  • スプリット:

スプリット
'test' 2,000
'train' 49,380
'validation' 2,000

paws_x_wiki/en

  • 構成の説明: en に翻訳

  • データセットのサイズ: 14.59 MiB

  • スプリット:

スプリット
'test' 2,000
'train' 49,175
'validation' 2,000

paws_x_wiki/es

  • 構成の説明: es に翻訳

  • データセットサイズ: 15.27 MiB

  • スプリット:

スプリット
'test' 2,000
'train' 49,401
'validation' 1,961人

paws_x_wiki/fr

  • 構成の説明: fr に翻訳

  • データセットのサイズ: 15.79 MiB

  • スプリット:

スプリット
'test' 2,000
'train' 49,399
'validation' 1,988人

paws_x_wiki/ja

  • 構成の説明: 日本語に翻訳

  • データセットのサイズ: 17.77 MiB

  • スプリット:

スプリット
'test' 2,000
'train' 49,401
'validation' 2,000

paws_x_wiki/ko

  • 構成の説明: ko に翻訳

  • データセットサイズ: 16.42 MiB

  • スプリット:

スプリット
'test' 1,999
'train' 49,164
'validation' 2,000

paws_x_wiki/zh

  • 構成の説明: zh に翻訳

  • データセットのサイズ: 13.20 MiB

  • スプリット:

スプリット
'test' 2,000
'train' 49,401
'validation' 2,000