bucc

  • توضیحات :

شناسایی جملات موازی در مجموعه های قابل مقایسه با توجه به دو مجموعه تک زبانه تقسیم جمله، انتظار می رود سیستم های شرکت کننده جفت جملاتی را که ترجمه یکدیگر هستند شناسایی کنند.

وظیفه استخراج BUCC یک کار مشترک در استخراج جملات موازی از دو پیکره تک زبانه است که زیرمجموعه ای از آنها موازی فرض می شود و از سال 2016 در دسترس بوده است. برای هر جفت زبان، وظیفه مشترک یک پیکره تک زبانه برای هر زبان و یک لیست نقشه برداری طلایی حاوی جفت های ترجمه واقعی. این جفت ها حقیقت زمین هستند. کار این است که فهرستی از جفت‌های ترجمه را از پیکره‌های تک زبانه بسازیم. لیست ساخته شده با حقیقت زمین مقایسه شده و بر حسب اندازه گیری F1 ارزیابی می شود.

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
source_id متن رشته
منبع_جمله متن رشته
target_id متن رشته
هدف_جمله متن رشته
@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc/bucc_de (پیکربندی پیش‌فرض)

  • حجم دانلود : 29.30 MiB

  • حجم مجموعه داده : 3.21 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 9,580
'validation' 1038

bucc/bucc_fr

  • حجم دانلود : 21.65 MiB

  • حجم مجموعه داده : 2.90 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 9,086
'validation' 929

bucc/bucc_zh

  • حجم دانلود : 6.79 MiB

  • حجم مجموعه داده : 615.20 KiB

  • تقسیم ها :

شکاف مثال ها
'test' 1,899
'validation' 257

bucc/bucc_ru

  • حجم دانلود : 39.44 MiB

  • حجم مجموعه داده : 6.36 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 14,435
'validation' 2,374