patas_wiki

Descripción :

Los conjuntos de datos de identificación de paráfrasis existentes carecen de pares de oraciones que tengan una gran superposición léxica sin ser paráfrasis. Los modelos entrenados con tales datos no logran distinguir pares como vuelos de Nueva York a Florida y vuelos de Florida a Nueva York. Este conjunto de datos contiene 108 463 pares etiquetados por humanos y 656 000 pares etiquetados con ruido que destacan la importancia de modelar la estructura, el contexto y la información del orden de las palabras para el problema de la identificación de paráfrasis.

Para obtener más detalles, consulte el documento adjunto: PAWS: Paraphrase Adversaries from Word Scrambling en https://arxiv.org/abs/1904.01130

Este corpus contiene pares generados a partir de páginas de Wikipedia, que contienen pares generados a partir de métodos de intercambio de palabras y traducción inversa. Todos los pares tienen juicios humanos tanto en paráfrasis como en fluidez y están divididos en secciones de Entrenamiento/Desarrollo/Prueba.

Todos los archivos están en formato tsv con cuatro columnas:

id : una identificación única para cada par.
sentence1 : La primera oración.
sentence2 : La segunda oración.
(noisy_)label : Etiqueta (ruidosa) para cada par.

Cada etiqueta tiene dos valores posibles: 0 indica que el par tiene un significado diferente, mientras que 1 indica que el par es una paráfrasis.

Documentación adicional : Explore en Papers With Code
Página de inicio: https://github.com/google-research-datasets/paws
Código fuente : tfds.datasets.paws_wiki.Builder
Versiones :
- 1.0.0 : Versión inicial.
- 1.1.0 (predeterminado): agrega configuraciones a diferentes subconjuntos y admite texto sin formato.
Tamaño de la descarga : 57.47 MiB
Estructura de características :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
etiqueta	Etiqueta de clase	int64
oracion1	Texto	cuerda
oracion2	Texto	cuerda

Claves supervisadas (Ver as_supervised doc ): None
Figura ( tfds.show_examples ): no compatible.
Cita :

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (configuración predeterminada)

Descripción de la configuración : subconjunto: etiquetado_final tokenizado: verdadero
Tamaño del conjunto de datos : 17.96 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'test'`	8,000
`'train'`	49,401
`'validation'`	8,000

Ejemplos ( tfds.as_dataframe ):

patas_wiki/etiquetado_final_raw

Descripción de la configuración : subconjunto: etiquetado_final tokenizado: falso
Tamaño del conjunto de datos : 17.57 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'test'`	8,000
`'train'`	49,401
`'validation'`	8,000

Ejemplos ( tfds.as_dataframe ):

paws_wiki/labeled_swap_tokenized

Descripción de la configuración : subconjunto: etiquetado_intercambio tokenizado: verdadero
Tamaño del conjunto de datos : 8.79 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'train'`	30,397

Ejemplos ( tfds.as_dataframe ):

paws_wiki/labeled_swap_raw

Descripción de la configuración : subconjunto: etiquetado_intercambio tokenizado: falso
Tamaño del conjunto de datos : 8.60 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'train'`	30,397

Ejemplos ( tfds.as_dataframe ):

paws_wiki/unlabeled_final_tokenized

Descripción de la configuración : subconjunto: unlabeled_final tokenizado: verdadero
Tamaño del conjunto de datos : 177.89 MiB
Almacenamiento automático en caché ( documentación ): Sí (validación), solo cuando shuffle_files=False (tren)
Divisiones :

Separar	Ejemplos
`'train'`	645,652
`'validation'`	10,000

Ejemplos ( tfds.as_dataframe ):

patas_wiki Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.