Ayuda a proteger la Gran Barrera de Coral con TensorFlow en Kaggle Únete Challenge

paws_x_wiki

  • Descripción:

Este conjunto de datos contiene 23,659 pares de evaluación PAWS traducidos por humanos y 296,406 pares de entrenamiento traducidos automáticamente en seis idiomas tipológicamente distintos:

  • francés
  • Español
  • alemán
  • chino
  • japonés
  • coreano

Para más detalles, véase el documento de acompañamiento: PAWS-X: A Cross-lingual Acusatorio conjunto de datos para Paráfrasis Identificación a https://arxiv.org/abs/1908.11828

Al igual que en el conjunto de datos de PAWS, los ejemplos se dividen en secciones de entrenamiento / desarrollo / prueba. Todos los archivos están en formato tsv con cuatro columnas:

id Un id único para cada par de enunciados1 La primera oración enunciados2 La segunda oración (ruidoso_) etiqueta (ruidosos) etiqueta para cada par

Cada etiqueta tiene dos valores posibles: 0 indica que el par tiene un significado diferente, mientras que 1 indica que el par es una paráfrasis.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki / de (configuración predeterminada)

  • Descripción config: Traducido al de

  • Conjunto de datos de tamaño: 15.27 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 2.000
'train' 49,380
'validation' 2.000

paws_x_wiki / es

  • Descripción config: traducido al es

  • Conjunto de datos de tamaño: 14.59 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 2.000
'train' 49,175
'validation' 2.000

paws_x_wiki / es

  • Descripción config: Traducido a ej

  • Conjunto de datos de tamaño: 15.27 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 2.000
'train' 49,401
'validation' 1.961

paws_x_wiki / fr

  • Descripción config: Traducido a fr

  • Conjunto de datos de tamaño: 15.79 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 2.000
'train' 49,399
'validation' 1,988

paws_x_wiki / ja

  • Descripción config: Traducido al ja

  • Conjunto de datos de tamaño: 17.77 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 2.000
'train' 49,401
'validation' 2.000

paws_x_wiki / ko

  • Descripción config: Traducido al ko

  • Conjunto de datos de tamaño: 16.42 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 1,999
'train' 49,164
'validation' 2.000

paws_x_wiki / zh

  • Descripción config: Traducido a zh

  • Conjunto de datos de tamaño: 13.20 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 2.000
'train' 49,401
'validation' 2.000