paws_x_wiki

  • Descrição :

Este conjunto de dados contém 23.659 pares de avaliação PAWS traduzidos por humanos e 296.406 pares de treinamento traduzidos por máquina em seis idiomas tipologicamente distintos:

  • Francês
  • Espanhol
  • Alemão
  • chinês
  • japonês
  • coreano

Para mais detalhes, consulte o documento anexo: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification em https://arxiv.org/abs/1908.11828

Semelhante ao PAWS Dataset, os exemplos são divididos em seções Train/Dev/Test. Todos os arquivos estão no formato tsv com quatro colunas:

  1. id : Um id exclusivo para cada par.
  2. sentence1 : A primeira frase.
  3. sentence2 : A segunda frase.
  4. (noisy_)label : rótulo (ruidoso) para cada par.

Cada rótulo tem dois valores possíveis: 0 indica que o par tem um significado diferente, enquanto 1 indica que o par é uma paráfrase.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
etiqueta ClassLabel int64
frase1 Texto corda
frase2 Texto corda
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (configuração padrão)

  • Descrição da configuração : Traduzido para de

  • Tamanho do conjunto de dados : 15.27 MiB

  • Divisões :

Dividir Exemplos
'test' 2.000
'train' 49.380
'validation' 2.000

paws_x_wiki/en

  • Descrição da configuração : Traduzido para en

  • Tamanho do conjunto de dados : 14.59 MiB

  • Divisões :

Dividir Exemplos
'test' 2.000
'train' 49.175
'validation' 2.000

paws_x_wiki/es

  • Descrição da configuração : Traduzido para es

  • Tamanho do conjunto de dados : 15.27 MiB

  • Divisões :

Dividir Exemplos
'test' 2.000
'train' 49.401
'validation' 1.961

paws_x_wiki/fr

  • Descrição da configuração : Traduzido para fr

  • Tamanho do conjunto de dados : 15.79 MiB

  • Divisões :

Dividir Exemplos
'test' 2.000
'train' 49.399
'validation' 1.988

paws_x_wiki/ja

  • Descrição da configuração : Traduzido para ja

  • Tamanho do conjunto de dados : 17.77 MiB

  • Divisões :

Dividir Exemplos
'test' 2.000
'train' 49.401
'validation' 2.000

paws_x_wiki/ko

  • Descrição da configuração : Traduzido para ko

  • Tamanho do conjunto de dados : 16.42 MiB

  • Divisões :

Dividir Exemplos
'test' 1.999
'train' 49.164
'validation' 2.000

paws_x_wiki/zh

  • Descrição da configuração : Traduzido para zh

  • Tamanho do conjunto de dados : 13.20 MiB

  • Divisões :

Dividir Exemplos
'test' 2.000
'train' 49.401
'validation' 2.000