참고자료:

label_final

TFDS에 이 데이터세트를 로드하려면 다음 명령어를 사용하세요.

ds = tfds.load('huggingface:paws/labeled_final')
  • 설명 :
PAWS: Paraphrase Adversaries from Word Scrambling

This dataset contains 108,463 human-labeled and 656k noisily labeled pairs that feature
the importance of modeling structure, context, and word order information for the problem
of paraphrase identification. The dataset has two subsets, one based on Wikipedia and the
other one based on the Quora Question Pairs (QQP) dataset.

For further details, see the accompanying paper: PAWS: Paraphrase Adversaries from Word Scrambling
(https://arxiv.org/abs/1904.01130)

PAWS-QQP is not available due to license of QQP. It must be reconstructed by downloading the original
data and then running our scripts to produce the data and attach the labels.

Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
  • 라이센스 : 데이터 세트는 어떤 목적으로든 자유롭게 사용할 수 있지만 Google LLC("Google")를 데이터 소스로 인정하는 것이 좋습니다. 데이터 세트는 명시적이든 묵시적이든 어떠한 보증도 없이 "있는 그대로" 제공됩니다. Google은 데이터 세트 사용으로 인해 발생하는 직간접적인 손해에 대해 모든 책임을 지지 않습니다.
  • 버전 : 1.1.0
  • 분할 :
나뉘다
'test' 8000
'train' 49401
'validation' 8000
  • 특징 :
{
    "id": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "sentence1": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "sentence2": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "label": {
        "num_classes": 2,
        "names": [
            "0",
            "1"
        ],
        "names_file": null,
        "id": null,
        "_type": "ClassLabel"
    }
}

label_swap

TFDS에 이 데이터세트를 로드하려면 다음 명령어를 사용하세요.

ds = tfds.load('huggingface:paws/labeled_swap')
  • 설명 :
PAWS: Paraphrase Adversaries from Word Scrambling

This dataset contains 108,463 human-labeled and 656k noisily labeled pairs that feature
the importance of modeling structure, context, and word order information for the problem
of paraphrase identification. The dataset has two subsets, one based on Wikipedia and the
other one based on the Quora Question Pairs (QQP) dataset.

For further details, see the accompanying paper: PAWS: Paraphrase Adversaries from Word Scrambling
(https://arxiv.org/abs/1904.01130)

PAWS-QQP is not available due to license of QQP. It must be reconstructed by downloading the original
data and then running our scripts to produce the data and attach the labels.

Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
  • 라이센스 : 데이터 세트는 어떤 목적으로든 자유롭게 사용할 수 있지만 Google LLC("Google")를 데이터 소스로 인정하는 것이 좋습니다. 데이터 세트는 명시적이든 묵시적이든 어떠한 보증도 없이 "있는 그대로" 제공됩니다. Google은 데이터 세트 사용으로 인해 발생하는 직간접적인 손해에 대해 모든 책임을 지지 않습니다.
  • 버전 : 1.1.0
  • 분할 :
나뉘다
'train' 30397
  • 특징 :
{
    "id": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "sentence1": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "sentence2": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "label": {
        "num_classes": 2,
        "names": [
            "0",
            "1"
        ],
        "names_file": null,
        "id": null,
        "_type": "ClassLabel"
    }
}

라벨이 지정되지 않은 최종

TFDS에 이 데이터세트를 로드하려면 다음 명령어를 사용하세요.

ds = tfds.load('huggingface:paws/unlabeled_final')
  • 설명 :
PAWS: Paraphrase Adversaries from Word Scrambling

This dataset contains 108,463 human-labeled and 656k noisily labeled pairs that feature
the importance of modeling structure, context, and word order information for the problem
of paraphrase identification. The dataset has two subsets, one based on Wikipedia and the
other one based on the Quora Question Pairs (QQP) dataset.

For further details, see the accompanying paper: PAWS: Paraphrase Adversaries from Word Scrambling
(https://arxiv.org/abs/1904.01130)

PAWS-QQP is not available due to license of QQP. It must be reconstructed by downloading the original
data and then running our scripts to produce the data and attach the labels.

Note: There might be some missing or wrong labels in the dataset and we have replaced them with -1.
  • 라이센스 : 데이터 세트는 어떤 목적으로든 자유롭게 사용할 수 있지만 Google LLC("Google")를 데이터 소스로 인정하는 것이 좋습니다. 데이터 세트는 명시적이든 묵시적이든 어떠한 보증도 없이 "있는 그대로" 제공됩니다. Google은 데이터 세트 사용으로 인해 발생하는 직간접적인 손해에 대해 모든 책임을 지지 않습니다.
  • 버전 : 1.1.0
  • 분할 :
나뉘다
'train' 645652
'validation' 10000
  • 특징 :
{
    "id": {
        "dtype": "int32",
        "id": null,
        "_type": "Value"
    },
    "sentence1": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "sentence2": {
        "dtype": "string",
        "id": null,
        "_type": "Value"
    },
    "label": {
        "num_classes": 2,
        "names": [
            "0",
            "1"
        ],
        "names_file": null,
        "id": null,
        "_type": "ClassLabel"
    }
}