امروز برای رویداد محلی TensorFlow خود در همه جا پاسخ دهید!
این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

paws_wiki

  • توضیحات :

مجموعه های اطلاعاتی شناسایی پارافاز موجود ، فاقد جفت جملاتی هستند که همپوشانی لغوی بالایی داشته باشند بدون اینکه جمله بندی باشند. مدل هایی که روی چنین داده هایی آموزش دیده اند ، نمی توانند جفتهایی مانند پروازهای نیویورک به فلوریدا و پروازهای فلوریدا به نیویورک را از هم تشخیص دهند. این مجموعه داده شامل 108،463 جفت دارای برچسب انسانی و 656k دارای برچسب پر سر و صدا است که از اهمیت ساختار مدل سازی ، زمینه و اطلاعات ترتیب کلمات برای مشکل شناسایی پارافره برخوردار است.

برای جزئیات بیشتر ، به مقاله همراه آن مراجعه کنید: PAWS: Paraphrase Adversaries from Word Scrambling در https://arxiv.org/abs/1904.01130

این مجموعه شامل جفت هایی است که از صفحات ویکی پدیا تولید شده و حاوی جفتهایی است که هم از روش تعویض کلمه و هم از روش ترجمه برگشت ایجاد شده اند. همه جفت ها در مورد پارافریز و روان بودن قضاوت های انسانی دارند و به بخش های Train / Dev / Test تقسیم می شوند.

همه پرونده ها در قالب tsv با چهار ستون هستند:

id یک شناسه منحصر به فرد برای هر جمله جفت 1 جمله جمله اول 2 برچسب جمله دوم (noisy_) برچسب (Noisy) برای هر جفت

هر برچسب دارای دو مقدار ممکن است: 0 نشانگر معنای متفاوت این جفت است ، در حالی که 1 نشان می دهد جفت یک عبارت است.

شکاف مثال ها
'test' 8000
'train' 49،401
'validation' 8000
  • ویژگی ها :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • کلیدهای تحت نظارت (به as_supervised سند نظارت شده مراجعه کنید): None

  • نقل قول :

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}