wiki_auto

  • Açıklama:

WikiAuto, cümle sadeleştirme sistemlerini eğitmek için bir kaynak olarak İngilizce Wikipedia ve Simple English Wikipedia'dan bir dizi hizalanmış cümle sağlar. Yazarlar ilk Basit İngilizce Wikipedia ve İngilizce Wikipedia bunlara karşılık gelen sürümlerine (bu karşılık bir alt kümesinde cümleler arasında manuel hizalamalarını kümesi kitle kaynaklı manual yapılandırma), daha sonra bu hizalamalarını tahmin etmek bir sinir CRF sistemi eğitimli. Eğitimli model daha sonra (tekabül hizalanmış cümle daha büyük bir külliyat oluşturmak için bir İngiliz meslektaşı ile Basit İngilizce Wikipedia diğer makalelere uygulanmıştır auto , auto_acl , auto_full_no_split ve auto_full_with_split burada yapılandırmaları).

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manuel (varsayılan yapılandırma)

  • Yapılandırma tanımı: kalabalık işçiler tarafından hizalanmış 10K Vikipedi cümle çiftleri kümesi.

  • İndirme boyutu: 53.47 MiB

  • Veri kümesi boyutu: 76.87 MiB

  • Otomatik önbelleğe ( dokümantasyon ): Evet

  • Splits:

Bölmek Örnekler
'dev' 73.249
'test' 118.074
  • Özellikler:
FeaturesDict({
    'GLEU-score': tf.float64,
    'alignment_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'normal_sentence_id': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence_id': Text(shape=(), dtype=tf.string),
})

wiki_auto/auto_acl

  • Yapılandırma açıklaması: Cümle çiftleri ACL2020 sistemi tren hizalanır.

  • İndirme boyutu: 112.60 MiB

  • Veri kümesi boyutu: 138.83 MiB

  • Otomatik önbelleğe ( dokümantasyon ): Yalnızca shuffle_files=False (tam)

  • Splits:

Bölmek Örnekler
'full' 488.332
  • Özellikler:
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
})

wiki_auto/auto_full_no_split

  • Yapılandırma tanımı: cümle yarmadan tümü otomatik hizalanmış cümle çiftleri.

  • İndirme boyutu: 135.02 MiB

  • Veri kümesi boyutu: 166.78 MiB

  • Otomatik önbelleğe ( dokümantasyon ): Yalnızca shuffle_files=False (tam)

  • Splits:

Bölmek Örnekler
'full' 591.994
  • Özellikler:
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
})

wiki_auto/auto_full_with_split

  • Yapılandırma tanımı: cümle bölme ile tüm otomatik hizalanmış cümle çiftleri.

  • İndirme boyutu: 115.09 MiB

  • Veri kümesi boyutu: 141.20 MiB

  • Otomatik önbelleğe ( dokümantasyon ): Yalnızca shuffle_files=False (tam)

  • Splits:

Bölmek Örnekler
'full' 483.801
  • Özellikler:
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
})

wiki_auto/auto

  • Yapılandırma açıklaması: otomatik olarak hizalanır cümle çiftleri büyük bir set.

  • İndirme boyutu: 2.01 GiB

  • Veri kümesi boyutu: 1.76 GiB

  • Otomatik önbelleğe ( dokümantasyon ): Hayır

  • Splits:

Bölmek Örnekler
'part_1' 125.059
'part_2' 13.036
  • Özellikler:
FeaturesDict({
    'example_id': Text(shape=(), dtype=tf.string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=tf.string),
            'normal_sentence_id': Text(shape=(), dtype=tf.string),
        }),
        'normal_article_id': tf.int32,
        'normal_article_title': Text(shape=(), dtype=tf.string),
        'normal_article_url': Text(shape=(), dtype=tf.string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=tf.string),
        'simple_paragraph_id': Text(shape=(), dtype=tf.string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=tf.string),
        'simple_sentence_id': Text(shape=(), dtype=tf.string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=tf.string),
            'simple_sentence_id': Text(shape=(), dtype=tf.string),
        }),
        'simple_article_id': tf.int32,
        'simple_article_title': Text(shape=(), dtype=tf.string),
        'simple_article_url': Text(shape=(), dtype=tf.string),
    }),
})