wiki_auto

  • Descripción:

WikiAuto proporciona un conjunto de oraciones alineadas de Wikipedia en inglés y Wikipedia en inglés simple como un recurso para entrenar sistemas de simplificación de oraciones. Los autores primera multitud generados en un conjunto de alineaciones manuales entre frases en un subconjunto de la simple Inglés Wikipedia y sus correspondientes versiones en Inglés Wikipedia (esto corresponde a la manual configuración), entonces entrenado a un sistema de CRF neuronal para predecir estas alineaciones. Entonces el modelo entrenado se aplicó a los demás artículos de Wikipedia Inglés simple con una contraparte Inglés para crear un corpus más amplio de frases alineados (que corresponden a los auto , auto_acl , auto_full_no_split y auto_full_with_split configuraciones aquí).

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto / manual (configuración predeterminada)

  • Descripción config: Un conjunto de pares de frases 10K Wikipedia alineados por los trabajadores de multitudes.

  • Tamaño del paquete: 53.47 MiB

  • Conjunto de datos de tamaño: 76.87 MiB

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'dev' 73,249
'test' 118,074
  • características:
FeaturesDict({
    'GLEU-score': tf.float64,
    'alignment_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'normal_sentence_id': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence_id': Text(shape=(), dtype=tf.string),
})

wiki_auto / auto_acl

  • Config Descripción: pares de frases alineados para entrenar el sistema ACL2020.

  • Tamaño del paquete: 112.60 MiB

  • Conjunto de datos de tamaño: 138.83 MiB

  • Auto-caché ( documentación ): Sólo cuando shuffle_files=False (completo)

  • Fraccionamientos:

Separar Ejemplos de
'full' 488,332
  • características:
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
})

wiki_auto / auto_full_no_split

  • Descripción Config: Todos los pares de frases alineados automáticamente sin dividir frase.

  • Tamaño del paquete: 135.02 MiB

  • Conjunto de datos de tamaño: 166.78 MiB

  • Auto-caché ( documentación ): Sólo cuando shuffle_files=False (completo)

  • Fraccionamientos:

Separar Ejemplos de
'full' 591.994
  • características:
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
})

wiki_auto / auto_full_with_split

  • Descripción Config: Todos los pares de frases alineados automáticamente con división frase.

  • Tamaño del paquete: 115.09 MiB

  • Conjunto de datos de tamaño: 141.20 MiB

  • Auto-caché ( documentación ): Sólo cuando shuffle_files=False (completo)

  • Fraccionamientos:

Separar Ejemplos de
'full' 483,801
  • características:
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
})

wiki_auto / auto

  • Descripción Config: Un gran conjunto de pares de frases alineadas de forma automática.

  • Tamaño del paquete: 2.01 GiB

  • Tamaño de conjunto de datos: 1.76 GiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'part_1' 125.059
'part_2' 13,036
  • características:
FeaturesDict({
    'example_id': Text(shape=(), dtype=tf.string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=tf.string),
            'normal_sentence_id': Text(shape=(), dtype=tf.string),
        }),
        'normal_article_id': tf.int32,
        'normal_article_title': Text(shape=(), dtype=tf.string),
        'normal_article_url': Text(shape=(), dtype=tf.string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=tf.string),
        'simple_paragraph_id': Text(shape=(), dtype=tf.string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=tf.string),
        'simple_sentence_id': Text(shape=(), dtype=tf.string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=tf.string),
            'simple_sentence_id': Text(shape=(), dtype=tf.string),
        }),
        'simple_article_id': tf.int32,
        'simple_article_title': Text(shape=(), dtype=tf.string),
        'simple_article_url': Text(shape=(), dtype=tf.string),
    }),
})