paws_wiki

  • 説明

既存の言い換え識別データセットには、言い換えではなく語彙の重複が多い文のペアがありません。このようなデータでトレーニングされたモデルでは、ニューヨークからフロリダへのフライトとフロリダからニューヨークへのフライトのようなペアを区別できません。このデータセットには、言い換えの識別の問題に対するモデリング構造、コンテキスト、および語順情報の重要性を特徴とする、108,463の人間ラベルと656kのノイズラベルのペアが含まれています。

でスクランブルWordから言い換え敵対:PAWS:詳細については、付属の紙を参照してくださいhttps://arxiv.org/abs/1904.01130

このコーパスには、ウィキペディアのページから生成されたペアが含まれており、単語の交換と逆翻訳の両方の方法から生成されたペアが含まれています。すべてのペアは言い換えと流暢さの両方について人間の判断を持っており、トレーニング/開発/テストのセクションに分かれています。

すべてのファイルは、4つの列を持つtsv形式です。

id各ペアの一意のIDセンテンス1最初のセンテンスセンテンス22番目のセンテンス(noisy_)label(Noisy)各ペアのラベル

各ラベルには2つの可能な値があります。0はペアの意味が異なることを示し、1はペアが言い換えであることを示します。

スプリット
'test' 8,000
'train' 49,401
'validation' 8,000
  • 特長
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • 引用
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}