wiki_auto

  • คำอธิบาย :

WikiAuto จัดทำชุดประโยคที่สอดคล้องกันจากวิกิพีเดียภาษาอังกฤษและวิกิพีเดียภาษาอังกฤษแบบง่ายเพื่อเป็นแหล่งข้อมูลในการฝึกอบรมระบบลดความซับซ้อนของประโยค ก่อนอื่น ผู้เขียนได้รวบรวมชุดของการจัดแนวด้วยตนเองระหว่างประโยคในชุดย่อยของวิกิพีเดียภาษาอังกฤษแบบธรรมดาและเวอร์ชันที่สอดคล้องกันในวิกิพีเดียภาษาอังกฤษ (ซึ่งสอดคล้องกับการกำหนดค่า manual ) จากนั้นจึงฝึกระบบ CRF ประสาทเพื่อทำนายการจัดแนวเหล่านี้ โมเดลที่ผ่านการฝึกอบรมแล้วถูกนำไปใช้กับบทความอื่นๆ ในวิกิพีเดียภาษาอังกฤษอย่างง่ายโดยใช้คู่ภาษาอังกฤษเพื่อสร้างคลังข้อมูลขนาดใหญ่ของประโยคที่สอดคล้องกัน (สอดคล้องกับ auto , auto_acl , auto_full_no_split และ auto_full_with_split configs ที่นี่)

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า : ชุดของคู่ประโยควิกิพีเดีย 10K ที่จัดเรียงโดยฝูงชน

  • ขนาดการดาวน์โหลด : 53.47 MiB

  • ขนาดชุดข้อมูล : 76.87 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'dev' 73,249
'test' 118,074
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
คะแนน GLEU เทนเซอร์ float64
alignment_label ป้ายกำกับคลาส int64
normal_sentence ข้อความ สตริง
normal_sentence_id ข้อความ สตริง
Simple_sentence ข้อความ สตริง
simple_sentence_id ข้อความ สตริง

wiki_auto/auto_acl

  • คำอธิบาย การกำหนดค่า : จับคู่ประโยคเพื่อฝึกระบบ ACL2020

  • ขนาดการดาวน์โหลด : 112.60 MiB

  • ขนาดชุดข้อมูล : 138.83 MiB

  • แคชอัตโนมัติ ( เอกสาร ): เฉพาะเมื่อ shuffle_files=False (เต็ม)

  • แยก :

แยก ตัวอย่าง
'full' 488,332
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
normal_sentence ข้อความ สตริง
Simple_sentence ข้อความ สตริง

wiki_auto/auto_full_no_split

  • คำอธิบาย การกำหนดค่า : คู่ประโยคที่จัดแนวโดยอัตโนมัติทั้งหมดโดยไม่มีการแยกประโยค

  • ขนาดการดาวน์โหลด : 135.02 MiB

  • ขนาดชุดข้อมูล : 166.78 MiB

  • แคชอัตโนมัติ ( เอกสาร ): เฉพาะเมื่อ shuffle_files=False (เต็ม)

  • แยก :

แยก ตัวอย่าง
'full' 591,994
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
normal_sentence ข้อความ สตริง
Simple_sentence ข้อความ สตริง

wiki_auto/auto_full_with_split

  • คำอธิบาย การกำหนดค่า : ประโยคที่จัดแนวโดยอัตโนมัติทั้งหมดจะจับคู่กับการแยกประโยค

  • ขนาดการดาวน์โหลด : 115.09 MiB

  • ขนาดชุดข้อมูล : 141.20 MiB

  • แคชอัตโนมัติ ( เอกสาร ): เฉพาะเมื่อ shuffle_files=False (เต็ม)

  • แยก :

แยก ตัวอย่าง
'full' 483,801
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
normal_sentence ข้อความ สตริง
Simple_sentence ข้อความ สตริง

wiki_auto/อัตโนมัติ

  • คำอธิบาย การกำหนดค่า : คู่ประโยคที่จัดเรียงโดยอัตโนมัติจำนวนมาก

  • ขนาดการดาวน์โหลด : 2.01 GiB

  • ขนาดชุดข้อมูล : 1.76 GiB

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'part_1' 125,059
'part_2' 13,036
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
example_id ข้อความ สตริง
ปกติ คุณสมบัติDict
ปกติ/ปกติ_บทความ_เนื้อหา ลำดับ
ปกติ/ปกติ_บทความ_เนื้อหา/ปกติ_ประโยค ข้อความ สตริง
ปกติ/ปกติ_บทความ_เนื้อหา/ปกติ_ประโยค_id ข้อความ สตริง
ปกติ/ปกติ_article_id เทนเซอร์ int32
ปกติ/normal_article_title ข้อความ สตริง
ปกติ/ปกติ_article_url ข้อความ สตริง
การจัดย่อหน้า ลำดับ
Paragraph_alignment/ปกติ_paragraph_id ข้อความ สตริง
paragraph_alignment/simple_paragraph_id ข้อความ สตริง
การจัดประโยค ลำดับ
Sentence_alignment/Normal_sentence_id ข้อความ สตริง
Sentence_alignment/simple_sentence_id ข้อความ สตริง
เรียบง่าย คุณสมบัติDict
ง่าย/simple_article_content ลำดับ
ง่าย/simple_article_content/simple_sentence ข้อความ สตริง
ง่าย/simple_article_content/simple_sentence_id ข้อความ สตริง
ง่าย/simple_article_id เทนเซอร์ int32
ง่าย/simple_article_title ข้อความ สตริง
Simple/simple_article_url ข้อความ สตริง