¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

paws_wiki

  • Descripción:

Los conjuntos de datos de identificación de paráfrasis existentes carecen de pares de oraciones que tengan una alta superposición léxica sin ser paráfrasis. Los modelos entrenados con estos datos no distinguen pares como los vuelos de Nueva York a Florida y los vuelos de Florida a Nueva York. Este conjunto de datos contiene 108,463 pares marcados por humanos y 656k marcados ruidosamente que presentan la importancia de la estructura de modelado, el contexto y la información del orden de las palabras para el problema de la identificación de paráfrasis.

Para más detalles, véase el documento de acompañamiento: PAWS: Paráfrasis Los adversarios de la Palabra en el revolver https://arxiv.org/abs/1904.01130

Este corpus contiene pares generados a partir de páginas de Wikipedia, que contienen pares que se generan a partir de métodos de intercambio de palabras y traducción inversa. Todas las parejas tienen juicios humanos tanto en la paráfrasis como en la fluidez y se dividen en secciones de Entrenamiento / Desarrollo / Prueba.

Todos los archivos están en formato tsv con cuatro columnas:

id Un id único para cada par de enunciados1 La primera oración enunciados2 La segunda oración (ruidoso_) etiqueta (ruidosos) etiqueta para cada par

Cada etiqueta tiene dos valores posibles: 0 indica que el par tiene un significado diferente, mientras que 1 indica que el par es una paráfrasis.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki / labeled_final_tokenized (config predeterminado)

  • Descripción config: Subconjunto: labeled_final tokenized: Verdadero

  • Conjunto de datos de tamaño: 17.96 MiB

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'test' 8.000
'train' 49,401
'validation' 8.000

paws_wiki / labeled_final_raw

  • Descripción config: Subconjunto: labeled_final tokenized: Falso

  • Conjunto de datos de tamaño: 17.57 MiB

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'test' 8.000
'train' 49,401
'validation' 8.000

paws_wiki / labeled_swap_tokenized

  • Descripción config: Subconjunto: labeled_swap tokenized: Verdadero

  • Conjunto de datos de tamaño: 8.79 MiB

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'train' 30,397

paws_wiki / labeled_swap_raw

  • Descripción config: Subconjunto: labeled_swap tokenized: Falso

  • Conjunto de datos de tamaño: 8.60 MiB

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'train' 30,397

paws_wiki / unlabeled_final_tokenized

  • Descripción config: Subconjunto: unlabeled_final tokenizados: Verdadero

  • Conjunto de datos de tamaño: 177.89 MiB

  • Auto-caché ( documentación ): Sí (validación), solamente cuando está shuffle_files=False (tren)

  • Fraccionamientos:

Separar Ejemplos de
'train' 645.652
'validation' 10,000