wiki_auto

  • Descrição :

O WikiAuto fornece um conjunto de sentenças alinhadas da Wikipedia em inglês e da Wikipedia em inglês simples como um recurso para treinar sistemas de simplificação de sentenças. Os autores primeiro coletaram um conjunto de alinhamentos manuais entre sentenças em um subconjunto da Wikipedia em inglês simples e suas versões correspondentes na Wikipedia em inglês (isso corresponde à configuração manual ) e, em seguida, treinaram um sistema CRF neural para prever esses alinhamentos. O modelo treinado foi então aplicado aos outros artigos na Wikipédia em inglês simples com uma contraparte em inglês para criar um corpus maior de sentenças alinhadas (correspondendo às configurações auto , auto_acl , auto_full_no_split e auto_full_with_split aqui).

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (configuração padrão)

  • Descrição da configuração : um conjunto de 10 mil pares de frases da Wikipédia alinhados por trabalhadores da multidão.

  • Tamanho do download : 53.47 MiB

  • Tamanho do conjunto de dados : 76.87 MiB

  • Cache automático ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'dev' 73.249
'test' 118.074
  • Estrutura de recursos :
FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
pontuação GLEU tensor float64
etiqueta_alinhamento ClassLabel int64
frase_normal Texto corda
normal_sentence_id Texto corda
sentença simples Texto corda
simple_sentence_id Texto corda

wiki_auto/auto_acl

  • Descrição da configuração : Pares de sentenças alinhados para treinar o sistema ACL2020.

  • Tamanho do download : 112.60 MiB

  • Tamanho do conjunto de dados : 138.83 MiB

  • Armazenado em cache automaticamente ( documentação ): Somente quando shuffle_files=False (completo)

  • Divisões :

Dividir Exemplos
'full' 488.332
  • Estrutura de recursos :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
frase_normal Texto corda
sentença simples Texto corda

wiki_auto/auto_full_no_split

  • Descrição da configuração : Todos os pares de frases alinhados automaticamente sem divisão de frases.

  • Tamanho do download : 135.02 MiB

  • Tamanho do conjunto de dados : 166.78 MiB

  • Armazenado em cache automaticamente ( documentação ): Somente quando shuffle_files=False (completo)

  • Divisões :

Dividir Exemplos
'full' 591.994
  • Estrutura de recursos :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
frase_normal Texto corda
sentença simples Texto corda

wiki_auto/auto_full_with_split

  • Descrição da configuração : Todos os pares de frases alinhados automaticamente com divisão de frases.

  • Tamanho do download : 115.09 MiB

  • Tamanho do conjunto de dados : 141.20 MiB

  • Armazenado em cache automaticamente ( documentação ): Somente quando shuffle_files=False (completo)

  • Divisões :

Dividir Exemplos
'full' 483.801
  • Estrutura de recursos :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
frase_normal Texto corda
sentença simples Texto corda

wiki_auto/auto

  • Descrição da configuração : Um grande conjunto de pares de frases alinhados automaticamente.

  • Tamanho do download : 2.01 GiB

  • Tamanho do conjunto de dados : 1.76 GiB

  • Armazenado em cache automaticamente ( documentação ): Não

  • Divisões :

Dividir Exemplos
'part_1' 125.059
'part_2' 13.036
  • Estrutura de recursos :
FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
exemplo_id Texto corda
normal RecursosDict
normal/normal_article_content Seqüência
normal/normal_article_content/normal_sentence Texto corda
normal/normal_article_content/normal_sentence_id Texto corda
normal/normal_article_id tensor int32
normal/normal_article_title Texto corda
normal/normal_article_url Texto corda
parágrafo_alinhamento Seqüência
paragrafo_alinhamento/normal_paragrafo_id Texto corda
paragrafo_alinhamento/simple_paragrafo_id Texto corda
sentença_alinhamento Seqüência
sentença_alinhamento/normal_sentence_id Texto corda
sentença_alinhamento/simples_sentença_id Texto corda
simples RecursosDict
simple/simples_article_content Seqüência
simple/simples_article_content/simples_sentence Texto corda
simple/simple_article_content/simple_sentence_id Texto corda
simple/simples_article_id tensor int32
simple/simples_article_title Texto corda
simple/simples_article_url Texto corda