wiki_auto

  • توضیحات :

WikiAuto مجموعه ای از جملات تراز شده را از ویکی پدیای انگلیسی و ویکی پدیای انگلیسی ساده به عنوان منبعی برای آموزش سیستم های ساده سازی جمله ارائه می دهد. نویسندگان ابتدا مجموعه‌ای از هم‌ترازی‌های دستی بین جملات را در زیرمجموعه‌ای از ویکی‌پدیای ساده انگلیسی و نسخه‌های متناظر آن‌ها در ویکی‌پدیای انگلیسی (که با پیکربندی manual مطابقت دارد) جمع‌آوری کردند، سپس یک سیستم CRF عصبی را برای پیش‌بینی این هم‌ترازی‌ها آموزش دادند. سپس مدل آموزش‌دیده شده برای سایر مقالات در ویکی‌پدیای ساده انگلیسی با همتای انگلیسی برای ایجاد مجموعه بزرگ‌تری از جملات تراز شده (مرتبط با تنظیمات auto ، auto_acl ، auto_full_no_split ، و auto_full_with_split در اینجا) اعمال شد.

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (پیکربندی پیش‌فرض)

  • توضیحات پیکربندی : مجموعه‌ای از 10 هزار جفت جملات ویکی‌پدیا که توسط کارگران جمعی تراز شده‌اند.

  • حجم دانلود : 53.47 MiB

  • حجم مجموعه داده : 76.87 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'dev' 73,249
'test' 118,074
  • ساختار ویژگی :
FeaturesDict({
    'GLEU-score': float64,
    'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'normal_sentence': Text(shape=(), dtype=string),
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
امتیاز GLEU تانسور float64
alignment_label ClassLabel int64
جمله_عادی متن رشته
normal_sentence_id متن رشته
جمله ساده متن رشته
ساده_جمله_id متن رشته

wiki_auto/auto_acl

  • شرح پیکربندی : جفت‌های جمله برای آموزش سیستم ACL2020 تراز شده‌اند.

  • حجم دانلود : 112.60 MiB

  • حجم مجموعه داده : 138.83 MiB

  • ذخیره خودکار ( مستندات ): فقط زمانی که shuffle_files=False (کامل)

  • تقسیم ها :

شکاف مثال ها
'full' 488,332
  • ساختار ویژگی :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
جمله_عادی متن رشته
جمله ساده متن رشته

wiki_auto/auto_full_no_split

  • توضیحات پیکربندی : همه جفت‌های جملات به‌طور خودکار بدون تقسیم جمله‌ها تراز شده‌اند.

  • حجم دانلود : 135.02 MiB

  • حجم مجموعه داده : 166.78 MiB

  • ذخیره خودکار ( مستندات ): فقط زمانی که shuffle_files=False (کامل)

  • تقسیم ها :

شکاف مثال ها
'full' 591,994
  • ساختار ویژگی :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
جمله_عادی متن رشته
جمله ساده متن رشته

wiki_auto/auto_full_with_split

  • توضیحات پیکربندی : همه جفت‌های جملاتی که به‌طور خودکار با تقسیم جمله‌ها تراز شده‌اند.

  • حجم دانلود : 115.09 MiB

  • حجم مجموعه داده : 141.20 MiB

  • ذخیره خودکار ( مستندات ): فقط زمانی که shuffle_files=False (کامل)

  • تقسیم ها :

شکاف مثال ها
'full' 483801
  • ساختار ویژگی :
FeaturesDict({
    'normal_sentence': Text(shape=(), dtype=string),
    'simple_sentence': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
جمله_عادی متن رشته
جمله ساده متن رشته

wiki_auto/auto

  • توضیحات پیکربندی : مجموعه بزرگی از جفت‌های جملاتی که به‌طور خودکار تراز شده‌اند.

  • حجم دانلود : 2.01 GiB

  • حجم مجموعه داده : 1.76 GiB

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'part_1' 125,059
'part_2' 13,036
  • ساختار ویژگی :
FeaturesDict({
    'example_id': Text(shape=(), dtype=string),
    'normal': FeaturesDict({
        'normal_article_content': Sequence({
            'normal_sentence': Text(shape=(), dtype=string),
            'normal_sentence_id': Text(shape=(), dtype=string),
        }),
        'normal_article_id': int32,
        'normal_article_title': Text(shape=(), dtype=string),
        'normal_article_url': Text(shape=(), dtype=string),
    }),
    'paragraph_alignment': Sequence({
        'normal_paragraph_id': Text(shape=(), dtype=string),
        'simple_paragraph_id': Text(shape=(), dtype=string),
    }),
    'sentence_alignment': Sequence({
        'normal_sentence_id': Text(shape=(), dtype=string),
        'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple': FeaturesDict({
        'simple_article_content': Sequence({
            'simple_sentence': Text(shape=(), dtype=string),
            'simple_sentence_id': Text(shape=(), dtype=string),
        }),
        'simple_article_id': int32,
        'simple_article_title': Text(shape=(), dtype=string),
        'simple_article_url': Text(shape=(), dtype=string),
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
example_id متن رشته
طبیعی FeaturesDict
محتوای_مقاله_عادی/عادی توالی
normal/normal_article_content/normal_sentence متن رشته
normal/normal_article_content/normal_sentence_id متن رشته
normal/normal_article_id تانسور int32
عنوان_مقاله_عادی/عادی متن رشته
normal/normal_article_url متن رشته
پاراگراف_تراز توالی
paragraph_alignment/normal_paragraph_id متن رشته
paragraph_alignment/simple_paragraph_id متن رشته
جمله_تراز کردن توالی
جمله_همترازی/عنوان_جمله_عادی متن رشته
جمله_تراز/شخص_جمله_ساده متن رشته
ساده FeaturesDict
ساده/مقاله_ساده توالی
simple/simple_article_content/simple_sentence متن رشته
simple/simple_article_content/simple_sentence_id متن رشته
simple/simple_article_id تانسور int32
عنوان ساده/ساده_مقاله متن رشته
simple/simple_article_url متن رشته