wiki_auto

  • תיאור:

WikiAuto מספקת קבוצה של משפטים מיושרים מויקיפדיה האנגלית ומוויקיפדיה האנגלית הפשוטה כמשאב לאימון מערכות פישוט משפטים. המחברים הראשונים קהל-שמקורו סט של יישור ידני בין משפטים משנה של ויקיפדיה באנגלית פשוטה גרסאות המקביל שלהם בוויקיפדיה האנגלית (מקבילה זו אל manual config), אז אימן מערכת CRF עצבית לחזות יישור אלה. המודל אימן אז היה מוחל על מאמרים אחרים ויקיפדיה באנגלית פשוטה עם עמיתו האנגלי ליצור קורפוס גדול של משפטים מיושר (המתאים auto , auto_acl , auto_full_no_split , ו auto_full_with_split configs כאן).

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (תצורת ברירת מחדל)

  • תיאור Config: קבוצה של זוגות משפט 10K ויקיפדיה מיושרים על ידי עובדי קהל.

  • גודל ההורדה: 53.47 MiB

  • מערך נתונים גודל: 76.87 MiB

  • Auto-במטמון ( תיעוד ): כן

  • פיצולים:

לְפַצֵל דוגמאות
'dev' 73,249
'test' 118,074
  • מאפיינים:
FeaturesDict({
    'GLEU-score': tf.float64,
    'alignment_label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'normal_sentence_id': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence_id': Text(shape=(), dtype=tf.string),
})

wiki_auto/auto_acl

  • תיאור Config: זוגות משפט מיושר כדי ללמד את המערכת ACL2020.

  • גודל ההורדה: 112.60 MiB

  • מערך נתונים גודל: 138.83 MiB

  • Auto-במטמון ( תיעוד ): רק כאשר shuffle_files=False (מלא)

  • פיצולים:

לְפַצֵל דוגמאות
'full' 488,332
  • מאפיינים:
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
})

wiki_auto/auto_full_no_split

  • תיאור Config: כל זוגות משפט מיושר אוטומטית ללא פיצול משפט.

  • גודל ההורדה: 135.02 MiB

  • מערך נתונים גודל: 166.78 MiB

  • Auto-במטמון ( תיעוד ): רק כאשר shuffle_files=False (מלא)

  • פיצולים:

לְפַצֵל דוגמאות
'full' 591,994
  • מאפיינים:
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
})

wiki_auto/auto_full_with_split

  • תיאור Config: כל זוגות משפט מיושר אוטומטית עם פיצול משפט.

  • גודל ההורדה: 115.09 MiB

  • מערך נתונים גודל: 141.20 MiB

  • Auto-במטמון ( תיעוד ): רק כאשר shuffle_files=False (מלא)

  • פיצולים:

לְפַצֵל דוגמאות
'full' 483,801
  • מאפיינים:
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=tf.string),
    'simple_sentence': Text(shape=(), dtype=tf.string),
})

wiki_auto/auto

  • תיאור Config: קבוצה גדולה של זוגות משפט מיושרים אוטומטית.

  • גודל ההורדה: 2.01 GiB

  • גודל בסיס הנתונים: 1.76 GiB

  • Auto-במטמון ( תיעוד ): אין

  • פיצולים:

לְפַצֵל דוגמאות
'part_1' 125,059
'part_2' 13,036
  • מאפיינים:
FeaturesDict({
    'example_id': Text(shape=(), dtype=tf.string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=tf.string),
            'normal_sentence_id': Text(shape=(), dtype=tf.string),
        }),
        'normal_article_id': tf.int32,
        'normal_article_title': Text(shape=(), dtype=tf.string),
        'normal_article_url': Text(shape=(), dtype=tf.string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=tf.string),
        'simple_paragraph_id': Text(shape=(), dtype=tf.string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=tf.string),
        'simple_sentence_id': Text(shape=(), dtype=tf.string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=tf.string),
            'simple_sentence_id': Text(shape=(), dtype=tf.string),
        }),
        'simple_article_id': tf.int32,
        'simple_article_title': Text(shape=(), dtype=tf.string),
        'simple_article_url': Text(shape=(), dtype=tf.string),
    }),
})