wiki_auto

  • Deskripsi :

WikiAuto menyediakan kumpulan kalimat selaras dari Wikipedia Bahasa Inggris dan Wikipedia Bahasa Inggris Sederhana sebagai sumber untuk melatih sistem penyederhanaan kalimat. Para penulis pertama-tama mengumpulkan kumpulan penyelarasan manual antara kalimat dalam subset Wikipedia Bahasa Inggris Sederhana dan versi yang sesuai di Wikipedia bahasa Inggris (ini sesuai dengan konfigurasi manual ), kemudian melatih sistem CRF saraf untuk memprediksi penyelarasan ini. Model yang dilatih kemudian diterapkan ke artikel lain di Wikipedia Bahasa Inggris Sederhana dengan padanan bahasa Inggris untuk membuat korpus kalimat selaras yang lebih besar (sesuai dengan konfigurasi auto , auto_acl , auto_full_no_split , dan auto_full_with_split di sini).

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (konfigurasi default)

  • Deskripsi konfigurasi : Satu set 10K pasangan kalimat Wikipedia yang diselaraskan oleh pekerja kerumunan.

  • Ukuran unduhan : 53.47 MiB

  • Ukuran dataset : 76.87 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Perpecahan :

Membelah Contoh
'dev' 73.249
'test' 118.074
  • Struktur fitur :
FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
skor GLEU Tensor float64
perataan_label LabelKelas int64
kalimat_normal Teks rangkaian
normal_kalimat_id Teks rangkaian
kalimat sederhana Teks rangkaian
simple_kalimat_id Teks rangkaian

wiki_auto/auto_acl

  • Deskripsi konfigurasi : Pasangan kalimat diselaraskan untuk melatih sistem ACL2020.

  • Ukuran unduhan : 112.60 MiB

  • Ukuran dataset : 138.83 MiB

  • Auto-cached ( dokumentasi ): Hanya ketika shuffle_files=False (full)

  • Perpecahan :

Membelah Contoh
'full' 488.332
  • Struktur fitur :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
kalimat_normal Teks rangkaian
kalimat sederhana Teks rangkaian

wiki_auto/auto_full_no_split

  • Deskripsi konfigurasi : Semua pasangan kalimat yang disejajarkan secara otomatis tanpa pemisahan kalimat.

  • Ukuran unduhan : 135.02 MiB

  • Ukuran dataset : 166.78 MiB

  • Auto-cached ( dokumentasi ): Hanya ketika shuffle_files=False (full)

  • Perpecahan :

Membelah Contoh
'full' 591.994
  • Struktur fitur :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
kalimat_normal Teks rangkaian
kalimat sederhana Teks rangkaian

wiki_auto/auto_full_with_split

  • Deskripsi konfigurasi : Semua pasangan kalimat yang diselaraskan secara otomatis dengan pemisahan kalimat.

  • Ukuran unduhan : 115.09 MiB

  • Ukuran dataset : 141.20 MiB

  • Auto-cached ( dokumentasi ): Hanya ketika shuffle_files=False (full)

  • Perpecahan :

Membelah Contoh
'full' 483.801
  • Struktur fitur :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
kalimat_normal Teks rangkaian
kalimat sederhana Teks rangkaian

wiki_auto/otomatis

  • Deskripsi konfigurasi : Kumpulan besar pasangan kalimat yang disejajarkan secara otomatis.

  • Ukuran unduhan : 2.01 GiB

  • Ukuran dataset : 1.76 GiB

  • Di-cache otomatis ( dokumentasi ): Tidak

  • Perpecahan :

Membelah Contoh
'part_1' 125.059
'part_2' 13.036
  • Struktur fitur :
FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
example_id Teks rangkaian
normal fiturDict
normal/normal_article_content Urutan
normal/normal_article_content/normal_sentence Teks rangkaian
normal/normal_article_content/normal_sentence_id Teks rangkaian
normal/normal_article_id Tensor int32
normal/normal_article_title Teks rangkaian
normal/normal_artikel_url Teks rangkaian
penyelarasan_paragraf Urutan
paragraf_alignment/normal_paragraph_id Teks rangkaian
paragraf_alignment/simple_paragraph_id Teks rangkaian
kalimat_alignment Urutan
kalimat_penyelarasan/id_kalimat_normal Teks rangkaian
kalimat_penyelarasan/simple_kalimat_id Teks rangkaian
sederhana fiturDict
sederhana/konten_artikel_sederhana Urutan
sederhana/konten_artikel_sederhana/kalimat_sederhana Teks rangkaian
simple/simple_article_content/simple_sentence_id Teks rangkaian
simple/simple_article_id Tensor int32
simple/simple_article_title Teks rangkaian
sederhana/simple_artikel_url Teks rangkaian