wiki_auto

Descripción :

WikiAuto proporciona un conjunto de oraciones alineadas de Wikipedia en inglés y Wikipedia en inglés simple como recurso para entrenar sistemas de simplificación de oraciones. Los autores primero recopilaron un conjunto de alineaciones manuales entre oraciones en un subconjunto de la Wikipedia en inglés simple y sus versiones correspondientes en la Wikipedia en inglés (esto corresponde a la configuración manual ), luego entrenaron un sistema CRF neuronal para predecir estas alineaciones. Luego, el modelo entrenado se aplicó a los otros artículos en Wikipedia en inglés simple con una contraparte en inglés para crear un corpus más grande de oraciones alineadas (correspondientes a las configuraciones auto , auto_acl , auto_full_no_split y auto_full_with_split aquí).

Página de inicio: https://github.com/chaojiang06/wiki-auto
Código fuente : tfds.text_simplification.wiki_auto.WikiAuto
Versiones :
- 1.0.0 (predeterminado): Versión inicial.
Claves supervisadas (Ver as_supervised doc ): None
Figura ( tfds.show_examples ): no compatible.
Cita :

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (configuración predeterminada)

Descripción de la configuración : un conjunto de pares de oraciones de Wikipedia de 10K alineados por trabajadores de multitud.
Tamaño de la descarga : 53.47 MiB
Tamaño del conjunto de datos : 76.87 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'dev'`	73,249
`'test'`	118,074

Estructura de características :

FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
Puntuación GLEU	Tensor	flotar64
etiqueta_alineación	Etiqueta de clase	int64
oración_normal	Texto	cuerda
normal_sentence_id	Texto	cuerda
oración simple	Texto	cuerda
simple_sentence_id	Texto	cuerda

Ejemplos ( tfds.as_dataframe ):

wiki_auto/auto_acl

Descripción de la configuración : pares de oraciones alineados para entrenar el sistema ACL2020.
Tamaño de la descarga : 112.60 MiB
Tamaño del conjunto de datos : 138.83 MiB
Almacenamiento automático en caché ( documentación ): solo cuando shuffle_files=False (completo)
Divisiones :

Separar	Ejemplos
`'full'`	488,332

Estructura de características :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
oración_normal	Texto	cuerda
oración simple	Texto	cuerda

Ejemplos ( tfds.as_dataframe ):

wiki_auto/auto_full_no_split

Descripción de la configuración : todos los pares de oraciones alineados automáticamente sin división de oraciones.
Tamaño de la descarga : 135.02 MiB
Tamaño del conjunto de datos : 166.78 MiB
Almacenamiento automático en caché ( documentación ): solo cuando shuffle_files=False (completo)
Divisiones :

Separar	Ejemplos
`'full'`	591,994

Estructura de características :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
oración_normal	Texto	cuerda
oración simple	Texto	cuerda

Ejemplos ( tfds.as_dataframe ):

wiki_auto/auto_full_with_split

Descripción de la configuración : todos los pares de oraciones alineados automáticamente con división de oraciones.
Tamaño de la descarga : 115.09 MiB
Tamaño del conjunto de datos : 141.20 MiB
Almacenamiento automático en caché ( documentación ): solo cuando shuffle_files=False (completo)
Divisiones :

Separar	Ejemplos
`'full'`	483,801

Estructura de características :

FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
oración_normal	Texto	cuerda
oración simple	Texto	cuerda

Ejemplos ( tfds.as_dataframe ):

wiki_auto/auto

Descripción de la configuración : un gran conjunto de pares de oraciones alineadas automáticamente.
Tamaño de descarga : 2.01 GiB
Tamaño del conjunto de datos : 1.76 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Separar	Ejemplos
`'part_1'`	125,059
`'part_2'`	13,036

Estructura de características :

FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
ejemplo_id	Texto	cuerda
normal	CaracterísticasDict
normal/normal_artículo_contenido	Secuencia
normal/normal_article_content/normal_sentence	Texto	cuerda
normal/normal_article_content/normal_sentence_id	Texto	cuerda
normal/normal_article_id	Tensor	int32
normal/título_artículo_normal	Texto	cuerda
normal/normal_articulo_url	Texto	cuerda
alineación_de_párrafo	Secuencia
alineación_párrafo/id_párrafo_normal	Texto	cuerda
alineación_párrafo/id_párrafo_simple	Texto	cuerda
alineación_de_frases	Secuencia
oración_alineación/normal_frase_id	Texto	cuerda
oración_alineación/simple_sentence_id	Texto	cuerda
simple	CaracterísticasDict
simple/simple_articulo_contenido	Secuencia
simple/simple_article_content/simple_sentence	Texto	cuerda
simple/simple_article_content/simple_sentence_id	Texto	cuerda
simple/simple_article_id	Tensor	int32
simple/simple_article_title	Texto	cuerda
simple/simple_articulo_url	Texto	cuerda

Ejemplos ( tfds.as_dataframe ):