patas_x_wiki

  • Descripción :

Este conjunto de datos contiene 23 659 pares de evaluación PAWS traducidos por humanos y 296 406 pares de entrenamiento traducidos automáticamente en seis idiomas tipológicamente distintos:

  • Francés
  • español
  • Alemán
  • Chino
  • japonés
  • coreano

Para obtener más detalles, consulte el documento adjunto: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification en https://arxiv.org/abs/1908.11828

De manera similar al conjunto de datos de PAWS, los ejemplos se dividen en secciones de Entrenamiento/Desarrollo/Prueba. Todos los archivos están en formato tsv con cuatro columnas:

  1. id : una identificación única para cada par.
  2. sentence1 : La primera oración.
  3. sentence2 : La segunda oración.
  4. (noisy_)label : Etiqueta (ruidosa) para cada par.

Cada etiqueta tiene dos valores posibles: 0 indica que el par tiene un significado diferente, mientras que 1 indica que el par es una paráfrasis.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
etiqueta Etiqueta de clase int64
oracion1 Texto cuerda
oracion2 Texto cuerda
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (configuración predeterminada)

  • Descripción de la configuración : Traducido a de

  • Tamaño del conjunto de datos : 15.27 MiB

  • Divisiones :

Separar Ejemplos
'test' 2,000
'train' 49,380
'validation' 2,000

paws_x_wiki/es

  • Descripción de la configuración : Traducido a en

  • Tamaño del conjunto de datos : 14.59 MiB

  • Divisiones :

Separar Ejemplos
'test' 2,000
'train' 49,175
'validation' 2,000

paws_x_wiki/es

  • Descripción de la configuración : Traducido a es

  • Tamaño del conjunto de datos : 15.27 MiB

  • Divisiones :

Separar Ejemplos
'test' 2,000
'train' 49,401
'validation' 1,961

paws_x_wiki/fr

  • Descripción de la configuración : Traducido a fr

  • Tamaño del conjunto de datos : 15.79 MiB

  • Divisiones :

Separar Ejemplos
'test' 2,000
'train' 49,399
'validation' 1,988

paws_x_wiki/ja

  • Descripción de la configuración : Traducido a ja

  • Tamaño del conjunto de datos : 17.77 MiB

  • Divisiones :

Separar Ejemplos
'test' 2,000
'train' 49,401
'validation' 2,000

paws_x_wiki/ko

  • Descripción de la configuración : Traducido a ko

  • Tamaño del conjunto de datos : 16.42 MiB

  • Divisiones :

Separar Ejemplos
'test' 1,999
'train' 49,164
'validation' 2,000

patas_x_wiki/zh

  • Descripción de la configuración : Traducido a zh

  • Tamaño del conjunto de datos : 13.20 MiB

  • Divisiones :

Separar Ejemplos
'test' 2,000
'train' 49,401
'validation' 2,000