paws_wiki

説明:

既存の言い換え識別データセットには、言い換えでなく語彙の重複が多い文のペアがありません。このようなデータでトレーニングされたモデルは、ニューヨークからフロリダへのフライトとフロリダからニューヨークへのフライトのペアを区別できません。このデータセットには、108,463 の人間がラベル付けしたペアと 656,000 の騒々しくラベル付けされたペアが含まれており、言い換え識別の問題のための構造、文脈、および語順情報のモデリングの重要性を特徴としています。

詳細については、付属の論文を参照してください: PAWS: Paraphrase Adversaries from Word Scrambling ( https://arxiv.org/abs/1904.01130)

このコーパスには、ウィキペディアのページから生成されたペアが含まれており、単語の交換と逆翻訳の両方の方法で生成されたペアが含まれています。すべてのペアは、言い換えと流暢さの両方について人間の判断を下しており、トレーニング/開発/テストのセクションに分かれています。

すべてのファイルは、次の 4 つの列を持つ tsv 形式です。

id : 各ペアの一意の ID。
sentence1 1 : 最初の文。
sentence2 2 : 2番目の文。
(noisy_)label : 各ペアの (Noisy) ラベル。

各ラベルには 2 つの可能な値があります。0 はペアが異なる意味を持つことを示し、1 はペアが言い換えであることを示します。

追加のドキュメント:コードを使用したペーパーの探索
ホームページ: https://github.com/google-research-datasets/paws
ソースコード: tfds.datasets.paws_wiki.Builder
バージョン:
- 1.0.0 : 初期バージョン。
- 1.1.0 (デフォルト): 構成を別のサブセットに追加し、未加工のテキストをサポートします。
ダウンロードサイズ: 57.47 MiB
機能構造:

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})

機能のドキュメント:

特徴	クラス	Dtype
	特徴辞書
ラベル	クラスラベル	int64
センテンス1	文章	ストリング
センテンス2	文章	ストリング

監視されたキー( as_supervised docを参照): None
図( tfds.show_examples ): サポートされていません。
引用：

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (デフォルト設定)

構成の説明: サブセット: ラベル付き_最終トークン化: True
データセットのサイズ: 17.96 MiB
自動キャッシュ(ドキュメント): はい
スプリット:

スプリット	例
`'test'`	8,000
`'train'`	49,401
`'validation'`	8,000

例( tfds.as_dataframe ):

paws_wiki/labeled_final_raw

構成の説明: サブセット: ラベル付き_最終トークン化: False
データセットのサイズ: 17.57 MiB
自動キャッシュ(ドキュメント): はい
スプリット:

スプリット	例
`'test'`	8,000
`'train'`	49,401
`'validation'`	8,000

例( tfds.as_dataframe ):

paws_wiki/labeled_swap_tokenized

構成の説明: サブセット: ラベル付き_スワップトークン化: True
データセットのサイズ: 8.79 MiB
自動キャッシュ(ドキュメント): はい
スプリット:

スプリット	例
`'train'`	30,397

例( tfds.as_dataframe ):

paws_wiki/labeled_swap_raw

構成の説明: サブセット: ラベル付き_スワップトークン化: False
データセットサイズ: 8.60 MiB
自動キャッシュ(ドキュメント): はい
スプリット:

スプリット	例
`'train'`	30,397

例( tfds.as_dataframe ):

paws_wiki/unlabeled_final_tokenized

構成の説明: サブセット: unlabeled_final トークン化: True
データセットのサイズ: 177.89 MiB
自動キャッシュ(ドキュメント): はい (検証)、 shuffle_files=Falseの場合のみ (トレーニング)
スプリット:

スプリット	例
`'train'`	645,652
`'validation'`	10,000

例( tfds.as_dataframe ):

paws_wiki コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。