امروز برای رویداد محلی TensorFlow خود در همه جا پاسخ دهید!
این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

tydi_qa

  • توضیحات :

TyDi QA یک مجموعه داده پاسخگوی س coveringال است که شامل 11 زبان متنوع از نظر تیپولوژیکی با جفت سوال-پاسخ 204K است. زبان های TyDi QA از نظر نوع شناسی متنوع هستند - مجموعه ای از ویژگی های زبانی که هر زبان بیان می کند - به گونه ای که انتظار داریم مدل هایی که در این مجموعه عملکرد خوبی دارند ، در تعداد زیادی از زبان های جهان تعمیم یابد. این شامل پدیده های زبانی است که در شرکت های انگلیسی فقط یافت نمی شود. برای تهیه یک کار واقع گرایانه برای جستجوی اطلاعات و جلوگیری از اثرات اولیه ، سوالات توسط افرادی که می خواهند جواب را بدانند ، اما هنوز جواب را نمی دانند ، نوشته می شوند (برخلاف SQuAD و فرزندان آن) و داده ها مستقیماً به هر زبان جمع آوری می شوند بدون استفاده از ترجمه (برخلاف MLQA و XQuAD).

تقسیمات آموزشی:

'train': این وظیفه GoldP مقاله اصلی TyDi QA [ https://arxiv.org/abs/2003.05002 ] است که دارای داده های آموزش به زبان اصلی است.

'translate-train- *': این تقسیم ها ترجمه های خودکار از انگلیسی به هر زبان مقصد مورد استفاده در مبانی ترجمه ترن در مقاله XTREME [ https://arxiv.org/abs/2003.11080 ] است. این هدف از داده های آموزشی غیر انگلیسی TyDiQA-GoldP برای شبیه سازی سناریوی یادگیری انتقال در مواردی که داده های زبان اصلی در دسترس نیست و سازندگان سیستم باید به داده های انگلیسی دارای برچسب به علاوه سیستم های ترجمه ماشین موجود اعتماد کنند ، نادیده گرفته می شود.

به طور معمول ، شما باید از قطار یا تقسیم قطار استفاده کنید ، اما نه از هر دو.

شکاف مثال ها
'train' 49،881
'validation' 5،077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • ویژگی ها :
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • کلیدهای تحت نظارت (به as_supervised سند نظارت شده مراجعه کنید): None

  • نقل قول :

@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa / goldp (پیکربندی پیش فرض)