参考文献:

ラベル付き_最終

次のコマンドを使用して、このデータセットを TFDS にロードします。

ds = tfds.load('huggingface:paws/labeled_final')
  • 説明
PAWS: Paraphrase Adversaries from Word Scrambling

This dataset contains 108,463 human-labeled and 656k noisily labeled pairs that feature
the importance of modeling structure, context, and word order information for the problem
of paraphrase identification. The dataset has two subsets, one based on Wikipedia and the
other one based on the Quora Question Pairs (QQP) dataset.

For further details, see the accompanying paper: PAWS: Paraphrase Adversaries from Word Scrambling
(https://arxiv.org/abs/1904.01130)

PAWS-QQP is not available due to license of QQP. It must be reconstructed by downloading the original
data and then running our scripts to produce the data and attach the labels.

Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
  • ライセンス: データセットはいかなる目的にも自由に使用できますが、データ ソースとして Google LLC (「Google」) の承認をいただければ幸いです。データセットは、明示的か黙示的かを問わず、いかなる保証もなく「現状のまま」提供されます。 Google は、データセットの使用に起因する直接的または間接的な損害に対する一切の責任を負いません。
  • バージョン: 1.1.0
  • 分割:
スプリット
'test' 8000
'train' 49401
'validation' 8000
  • 特徴
{
    "id": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "sentence1": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "sentence2": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "label": {
        "num_classes": 2,
        "names": [
            "0",
            "1"
        ],
        "names_file": null,
        "id": null,
        "_type": "ClassLabel"
    }
}

ラベル付き_スワップ

次のコマンドを使用して、このデータセットを TFDS にロードします。

ds = tfds.load('huggingface:paws/labeled_swap')
  • 説明
PAWS: Paraphrase Adversaries from Word Scrambling

This dataset contains 108,463 human-labeled and 656k noisily labeled pairs that feature
the importance of modeling structure, context, and word order information for the problem
of paraphrase identification. The dataset has two subsets, one based on Wikipedia and the
other one based on the Quora Question Pairs (QQP) dataset.

For further details, see the accompanying paper: PAWS: Paraphrase Adversaries from Word Scrambling
(https://arxiv.org/abs/1904.01130)

PAWS-QQP is not available due to license of QQP. It must be reconstructed by downloading the original
data and then running our scripts to produce the data and attach the labels.

Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
  • ライセンス: データセットはいかなる目的にも自由に使用できますが、データ ソースとして Google LLC (「Google」) の承認をいただければ幸いです。データセットは、明示的か黙示的かを問わず、いかなる保証もなく「現状のまま」提供されます。 Google は、データセットの使用に起因する直接的または間接的な損害に対する一切の責任を負いません。
  • バージョン: 1.1.0
  • 分割:
スプリット
'train' 30397
  • 特徴
{
    "id": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "sentence1": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "sentence2": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "label": {
        "num_classes": 2,
        "names": [
            "0",
            "1"
        ],
        "names_file": null,
        "id": null,
        "_type": "ClassLabel"
    }
}

ラベルなし_最終

次のコマンドを使用して、このデータセットを TFDS にロードします。

ds = tfds.load('huggingface:paws/unlabeled_final')
  • 説明
PAWS: Paraphrase Adversaries from Word Scrambling

This dataset contains 108,463 human-labeled and 656k noisily labeled pairs that feature
the importance of modeling structure, context, and word order information for the problem
of paraphrase identification. The dataset has two subsets, one based on Wikipedia and the
other one based on the Quora Question Pairs (QQP) dataset.

For further details, see the accompanying paper: PAWS: Paraphrase Adversaries from Word Scrambling
(https://arxiv.org/abs/1904.01130)

PAWS-QQP is not available due to license of QQP. It must be reconstructed by downloading the original
data and then running our scripts to produce the data and attach the labels.

Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
  • ライセンス: データセットはいかなる目的にも自由に使用できますが、データ ソースとして Google LLC (「Google」) の承認をいただければ幸いです。データセットは、明示的か黙示的かを問わず、いかなる保証もなく「現状のまま」提供されます。 Google は、データセットの使用に起因する直接的または間接的な損害に対する一切の責任を負いません。
  • バージョン: 1.1.0
  • 分割:
スプリット
'train' 645652
'validation' 10000
  • 特徴
{
    "id": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "sentence1": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "sentence2": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "label": {
        "num_classes": 2,
        "names": [
            "0",
            "1"
        ],
        "names_file": null,
        "id": null,
        "_type": "ClassLabel"
    }
}