paws_wiki

  • توضیحات :

مجموعه داده‌های شناسایی بازنویسی موجود فاقد جفت‌جمله‌هایی هستند که هم‌پوشانی واژگانی بالایی دارند، بدون اینکه نقل‌باز باشند. مدل‌هایی که بر روی چنین داده‌هایی آموزش دیده‌اند، قادر به تشخیص جفت‌هایی مانند پرواز از نیویورک به فلوریدا و پرواز از فلوریدا به نیویورک نیستند. این مجموعه داده شامل 108463 جفت برچسب‌گذاری شده توسط انسان و 656 هزار جفت برچسب‌گذاری شده با نویز است که اهمیت مدل‌سازی ساختار، بافت و اطلاعات ترتیب کلمه را برای مشکل شناسایی بازنویسی نشان می‌دهد.

برای جزئیات بیشتر، به مقاله همراه مراجعه کنید: PAWS: Paraphrase Adversaries from Word Scrambling در https://arxiv.org/abs/1904.01130

این مجموعه شامل جفت‌هایی است که از صفحات ویکی‌پدیا تولید شده‌اند، که شامل جفت‌هایی است که از هر دو روش جابجایی کلمه و ترجمه برگشتی ایجاد می‌شوند. همه جفت‌ها قضاوت‌های انسانی هم در بازنویسی و هم روانی دارند و به بخش‌های Train/Dev/Test تقسیم می‌شوند.

همه فایل ها با فرمت tsv با چهار ستون هستند:

  1. id : یک شناسه منحصر به فرد برای هر جفت.
  2. sentence1 1: جمله اول.
  3. sentence2 2: جمله دوم.
  4. (noisy_)label : (نویز) برچسب برای هر جفت.

هر برچسب دارای دو مقدار ممکن است: 0 نشان می دهد که جفت معنای متفاوتی دارد، در حالی که 1 نشان می دهد که جفت یک پارافراسی است.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
برچسب ClassLabel int64
جمله 1 متن رشته
جمله 2 متن رشته
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (پیکربندی پیش‌فرض)

  • توضیحات پیکربندی : زیر مجموعه: labeled_final tokenized: True

  • حجم مجموعه داده : 17.96 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 8000
'train' 49,401
'validation' 8000

paws_wiki/labeled_final_raw

  • توضیحات پیکربندی : زیر مجموعه: labeled_final tokenized: False

  • حجم مجموعه داده : 17.57 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 8000
'train' 49,401
'validation' 8000

paws_wiki/labeled_swap_tokenized

  • توضیحات پیکربندی : زیر مجموعه: labeled_swap tokenized: True

  • حجم مجموعه داده : 8.79 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 30,397

paws_wiki/labeled_swap_raw

  • توضیحات پیکربندی : زیر مجموعه: labeled_swap tokenized: False

  • حجم مجموعه داده : 8.60 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 30,397

paws_wiki/unlabeled_final_tokenized

  • توضیحات پیکربندی : زیر مجموعه: unlabeled_final tokenized: درست است

  • حجم مجموعه داده : 177.89 MiB

  • ذخیره‌سازی خودکار ( مستندات ): بله (تایید اعتبار)، فقط زمانی که shuffle_files=False (قطار)

  • تقسیمات :

شکاف مثال ها
'train' 645652
'validation' 10000