bucc

توضیحات :

شناسایی جملات موازی در مجموعه های قابل مقایسه با توجه به دو مجموعه تک زبانه تقسیم جمله، انتظار می رود سیستم های شرکت کننده جفت جملاتی را که ترجمه یکدیگر هستند شناسایی کنند.

وظیفه استخراج BUCC یک کار مشترک در استخراج جملات موازی از دو پیکره تک زبانه است که زیرمجموعه ای از آنها موازی فرض می شود و از سال 2016 در دسترس بوده است. برای هر جفت زبان، وظیفه مشترک یک پیکره تک زبانه برای هر زبان و یک لیست نقشه برداری طلایی حاوی جفت های ترجمه واقعی. این جفت ها حقیقت زمین هستند. کار این است که فهرستی از جفت‌های ترجمه را از پیکره‌های تک زبانه بسازیم. لیست ساخته شده با حقیقت زمین مقایسه شده و بر حسب اندازه گیری F1 ارزیابی می شود.

صفحه اصلی : https://comparable.limsi.fr/bucc2018/
کد منبع : tfds.datasets.bucc.Builder
نسخه ها :
- 1.0.0 (پیش فرض): انتشار اولیه.
ذخیره خودکار ( اسناد ): بله
ساختار ویژگی :

FeaturesDict({
    'source_id': Text(shape=(), dtype=string),
    'source_sentence': Text(shape=(), dtype=string),
    'target_id': Text(shape=(), dtype=string),
    'target_sentence': Text(shape=(), dtype=string),
})

مستندات ویژگی :

ویژگی	کلاس	نوع D
	FeaturesDict
source_id	متن	رشته
منبع_جمله	متن	رشته
target_id	متن	رشته
هدف_جمله	متن	رشته

کلیدهای نظارت شده (به as_supervised doc مراجعه کنید): None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :

@inproceedings{zweigenbaum2018overview,
  title={Overview of the third BUCC shared task: Spotting parallel sentences  in comparable corpora},
  author={Zweigenbaum, Pierre and Sharoff, Serge and Rapp, Reinhard},
  booktitle={Proceedings of 11th Workshop on Building and Using Comparable Corpora},
  pages={39--42},
  year={2018}
}

bucc/bucc_de (پیکربندی پیش‌فرض)

حجم دانلود : 29.30 MiB
حجم مجموعه داده : 3.21 MiB
تقسیم ها :

شکاف	مثال ها
`'test'`	9,580
`'validation'`	1038

مثال‌ها ( tfds.as_dataframe ):

bucc/bucc_fr

حجم دانلود : 21.65 MiB
حجم مجموعه داده : 2.90 MiB
تقسیم ها :

شکاف	مثال ها
`'test'`	9,086
`'validation'`	929

مثال‌ها ( tfds.as_dataframe ):

bucc/bucc_zh

حجم دانلود : 6.79 MiB
حجم مجموعه داده : 615.20 KiB
تقسیم ها :

شکاف	مثال ها
`'test'`	1,899
`'validation'`	257

مثال‌ها ( tfds.as_dataframe ):

bucc/bucc_ru

حجم دانلود : 39.44 MiB
حجم مجموعه داده : 6.36 MiB
تقسیم ها :

شکاف	مثال ها
`'test'`	14,435
`'validation'`	2,374

مثال‌ها ( tfds.as_dataframe ):

bucc با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

bucc/bucc_de (پیکربندی پیش‌فرض)

bucc/bucc_fr

bucc/bucc_zh

bucc/bucc_ru

bucc