- Descripción:
WikiAuto proporciona un conjunto de oraciones alineadas de Wikipedia en inglés y Wikipedia en inglés simple como un recurso para entrenar sistemas de simplificación de oraciones. Los autores primera multitud generados en un conjunto de alineaciones manuales entre frases en un subconjunto de la simple Inglés Wikipedia y sus correspondientes versiones en Inglés Wikipedia (esto corresponde a la manual
configuración), entonces entrenado a un sistema de CRF neuronal para predecir estas alineaciones. Entonces el modelo entrenado se aplicó a los demás artículos de Wikipedia Inglés simple con una contraparte Inglés para crear un corpus más amplio de frases alineados (que corresponden a los auto
, auto_acl
, auto_full_no_split
y auto_full_with_split
configuraciones aquí).
El código fuente:
tfds.text_simplification.wiki_auto.WikiAuto
versiones:
-
1.0.0
(por defecto): Versión inicial.
-
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): No soportado.
Cita:
@inproceedings{acl/JiangMLZX20,
author = {Chao Jiang and
Mounica Maddela and
Wuwei Lan and
Yang Zhong and
Wei Xu},
editor = {Dan Jurafsky and
Joyce Chai and
Natalie Schluter and
Joel R. Tetreault},
title = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2020, Online, July 5-10, 2020},
pages = {7943--7960},
publisher = {Association for Computational Linguistics},
year = {2020},
url = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}
wiki_auto / manual (configuración predeterminada)
Descripción config: Un conjunto de pares de frases 10K Wikipedia alineados por los trabajadores de multitudes.
Tamaño del paquete:
53.47 MiB
Conjunto de datos de tamaño:
76.87 MiB
Auto-caché ( documentación ): Sí
Fraccionamientos:
Separar | Ejemplos de |
---|---|
'dev' | 73,249 |
'test' | 118,074 |
- características:
FeaturesDict({
'GLEU-score': tf.float64,
'alignment_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
'normal_sentence': Text(shape=(), dtype=tf.string),
'normal_sentence_id': Text(shape=(), dtype=tf.string),
'simple_sentence': Text(shape=(), dtype=tf.string),
'simple_sentence_id': Text(shape=(), dtype=tf.string),
})
- Ejemplos ( tfds.as_dataframe ):
wiki_auto / auto_acl
Config Descripción: pares de frases alineados para entrenar el sistema ACL2020.
Tamaño del paquete:
112.60 MiB
Conjunto de datos de tamaño:
138.83 MiB
Auto-caché ( documentación ): Sólo cuando
shuffle_files=False
(completo)Fraccionamientos:
Separar | Ejemplos de |
---|---|
'full' | 488,332 |
- características:
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=tf.string),
'simple_sentence': Text(shape=(), dtype=tf.string),
})
- Ejemplos ( tfds.as_dataframe ):
wiki_auto / auto_full_no_split
Descripción Config: Todos los pares de frases alineados automáticamente sin dividir frase.
Tamaño del paquete:
135.02 MiB
Conjunto de datos de tamaño:
166.78 MiB
Auto-caché ( documentación ): Sólo cuando
shuffle_files=False
(completo)Fraccionamientos:
Separar | Ejemplos de |
---|---|
'full' | 591.994 |
- características:
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=tf.string),
'simple_sentence': Text(shape=(), dtype=tf.string),
})
- Ejemplos ( tfds.as_dataframe ):
wiki_auto / auto_full_with_split
Descripción Config: Todos los pares de frases alineados automáticamente con división frase.
Tamaño del paquete:
115.09 MiB
Conjunto de datos de tamaño:
141.20 MiB
Auto-caché ( documentación ): Sólo cuando
shuffle_files=False
(completo)Fraccionamientos:
Separar | Ejemplos de |
---|---|
'full' | 483,801 |
- características:
FeaturesDict({
'normal_sentence': Text(shape=(), dtype=tf.string),
'simple_sentence': Text(shape=(), dtype=tf.string),
})
- Ejemplos ( tfds.as_dataframe ):
wiki_auto / auto
Descripción Config: Un gran conjunto de pares de frases alineadas de forma automática.
Tamaño del paquete:
2.01 GiB
Tamaño de conjunto de datos:
1.76 GiB
Auto-caché ( documentación ): No
Fraccionamientos:
Separar | Ejemplos de |
---|---|
'part_1' | 125.059 |
'part_2' | 13,036 |
- características:
FeaturesDict({
'example_id': Text(shape=(), dtype=tf.string),
'normal': FeaturesDict({
'normal_article_content': Sequence({
'normal_sentence': Text(shape=(), dtype=tf.string),
'normal_sentence_id': Text(shape=(), dtype=tf.string),
}),
'normal_article_id': tf.int32,
'normal_article_title': Text(shape=(), dtype=tf.string),
'normal_article_url': Text(shape=(), dtype=tf.string),
}),
'paragraph_alignment': Sequence({
'normal_paragraph_id': Text(shape=(), dtype=tf.string),
'simple_paragraph_id': Text(shape=(), dtype=tf.string),
}),
'sentence_alignment': Sequence({
'normal_sentence_id': Text(shape=(), dtype=tf.string),
'simple_sentence_id': Text(shape=(), dtype=tf.string),
}),
'simple': FeaturesDict({
'simple_article_content': Sequence({
'simple_sentence': Text(shape=(), dtype=tf.string),
'simple_sentence_id': Text(shape=(), dtype=tf.string),
}),
'simple_article_id': tf.int32,
'simple_article_title': Text(shape=(), dtype=tf.string),
'simple_article_url': Text(shape=(), dtype=tf.string),
}),
})
- Ejemplos ( tfds.as_dataframe ):