wiki_auto

  • Descrizione :

WikiAuto fornisce una serie di frasi allineate da Wikipedia in inglese e Wikipedia in inglese semplice come risorsa per addestrare i sistemi di semplificazione delle frasi. Gli autori hanno prima raccolto in crowdsourcing una serie di allineamenti manuali tra frasi in un sottoinsieme della Wikipedia in inglese semplice e le versioni corrispondenti nella Wikipedia in inglese (questo corrisponde alla configurazione manual ), quindi hanno addestrato un sistema CRF neurale per prevedere questi allineamenti. Il modello addestrato è stato quindi applicato agli altri articoli in Wikipedia in inglese semplice con una controparte inglese per creare un corpus più ampio di frasi allineate (corrispondenti alle configurazioni auto , auto_acl , auto_full_no_split e auto_full_with_split qui).

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (configurazione predefinita)

  • Descrizione della configurazione : una serie di 10.000 coppie di frasi di Wikipedia allineate da crowd worker.

  • Dimensione del download : 53.47 MiB

  • Dimensione del set di dati: 76.87 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'dev' 73.249
'test' 118.074
  • Struttura delle caratteristiche :
FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
Punteggio GLEU Tensore galleggiante64
etichetta_allineamento ClassLabel int64
frase_normale Testo corda
normal_sentence_id Testo corda
frase semplice Testo corda
simple_sentence_id Testo corda

wiki_auto/auto_acl

  • Descrizione della configurazione : coppie di frasi allineate per addestrare il sistema ACL2020.

  • Dimensione del download : 112.60 MiB

  • Dimensione del set di dati: 138.83 MiB

  • Cache automatica ( documentazione ): solo quando shuffle_files=False (completo)

  • Divisioni :

Diviso Esempi
'full' 488.332
  • Struttura delle caratteristiche :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
frase_normale Testo corda
frase semplice Testo corda

wiki_auto/auto_full_no_split

  • Descrizione della configurazione : tutte le coppie di frasi allineate automaticamente senza suddivisione della frase.

  • Dimensione del download : 135.02 MiB

  • Dimensione del set di dati: 166.78 MiB

  • Cache automatica ( documentazione ): solo quando shuffle_files=False (completo)

  • Divisioni :

Diviso Esempi
'full' 591.994
  • Struttura delle caratteristiche :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
frase_normale Testo corda
frase semplice Testo corda

wiki_auto/auto_full_with_split

  • Descrizione della configurazione : tutte le coppie di frasi allineate automaticamente con suddivisione delle frasi.

  • Dimensione del download : 115.09 MiB

  • Dimensione del set di dati: 141.20 MiB

  • Cache automatica ( documentazione ): solo quando shuffle_files=False (completo)

  • Divisioni :

Diviso Esempi
'full' 483.801
  • Struttura delle caratteristiche :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
frase_normale Testo corda
frase semplice Testo corda

wiki_auto/auto

  • Descrizione della configurazione : un ampio set di coppie di frasi allineate automaticamente.

  • Dimensione del download : 2.01 GiB

  • Dimensione del set di dati: 1.76 GiB

  • Cache automatica ( documentazione ): No

  • Divisioni :

Diviso Esempi
'part_1' 125.059
'part_2' 13.036
  • Struttura delle caratteristiche :
FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
esempio_id Testo corda
normale CaratteristicheDict
normale/normale_articolo_contenuto Sequenza
normale/normale_articolo_contenuto/normale_frase Testo corda
normal/normal_article_content/normal_sentence_id Testo corda
normale/normal_articolo_id Tensore int32
normale/titolo_articolo_normale Testo corda
normale/normale_articolo_url Testo corda
allineamento_paragrafo Sequenza
allineamento_paragrafo/id_paragrafo_normale Testo corda
allineamento_paragrafo/id_paragrafo_semplice Testo corda
frase_allineamento Sequenza
allineamento_frase/ID_frase_normale Testo corda
frase_allineamento/simple_sentence_id Testo corda
semplice CaratteristicheDict
semplice/semplice_articolo_contenuto Sequenza
semplice/semplice_articolo_contenuto/semplice_frase Testo corda
semplice/simple_article_content/simple_sentence_id Testo corda
semplice/simple_article_id Tensore int32
semplice/titolo_articolo_semplice Testo corda
semplice/semplice_articolo_url Testo corda