patas_x_wiki

Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

  • Descripción :

Este conjunto de datos contiene 23 659 pares de evaluación PAWS traducidos por humanos y 296 406 pares de entrenamiento traducidos automáticamente en seis idiomas tipológicamente distintos:

  • Francés
  • español
  • Alemán
  • Chino
  • japonés
  • coreano

Para obtener más detalles, consulte el documento adjunto: PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification en https://arxiv.org/abs/1908.11828

De manera similar al conjunto de datos de PAWS, los ejemplos se dividen en secciones de Entrenamiento/Desarrollo/Prueba. Todos los archivos están en formato tsv con cuatro columnas:

id Una identificación única para cada par oración 1 La primera oración oración 2 La segunda oración (ruidoso_) etiqueta (Ruidoso) etiqueta para cada par

Cada etiqueta tiene dos valores posibles: 0 indica que el par tiene un significado diferente, mientras que 1 indica que el par es una paráfrasis.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
etiqueta Etiqueta de clase tf.int64
oracion1 Texto tf.cadena
oracion2 Texto tf.cadena
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (configuración predeterminada)

  • Descripción de la configuración : Traducido a de

  • Tamaño del conjunto de datos : 15.27 MiB

  • Divisiones :

Separar Ejemplos
'test' 2,000
'train' 49,380
'validation' 2,000

paws_x_wiki/es

  • Descripción de la configuración : Traducido a en

  • Tamaño del conjunto de datos : 14.59 MiB

  • Divisiones :

Separar Ejemplos
'test' 2,000
'train' 49,175
'validation' 2,000

paws_x_wiki/es

  • Descripción de la configuración : Traducido a es

  • Tamaño del conjunto de datos : 15.27 MiB

  • Divisiones :

Separar Ejemplos
'test' 2,000
'train' 49,401
'validation' 1,961

paws_x_wiki/fr

  • Descripción de la configuración : Traducido a fr

  • Tamaño del conjunto de datos : 15.79 MiB

  • Divisiones :

Separar Ejemplos
'test' 2,000
'train' 49,399
'validation' 1,988

paws_x_wiki/ja

  • Descripción de la configuración : Traducido a ja

  • Tamaño del conjunto de datos : 17.77 MiB

  • Divisiones :

Separar Ejemplos
'test' 2,000
'train' 49,401
'validation' 2,000

paws_x_wiki/ko

  • Descripción de la configuración : Traducido a ko

  • Tamaño del conjunto de datos : 16.42 MiB

  • Divisiones :

Separar Ejemplos
'test' 1,999
'train' 49,164
'validation' 2,000

patas_x_wiki/zh

  • Descripción de la configuración : Traducido a zh

  • Tamaño del conjunto de datos : 13.20 MiB

  • Divisiones :

Separar Ejemplos
'test' 2,000
'train' 49,401
'validation' 2,000