paws_wiki

توضیحات :

مجموعه داده‌های شناسایی بازنویسی موجود فاقد جفت‌جمله‌هایی هستند که هم‌پوشانی واژگانی بالایی دارند، بدون اینکه نقل‌باز باشند. مدل‌هایی که بر روی چنین داده‌هایی آموزش دیده‌اند، قادر به تشخیص جفت‌هایی مانند پرواز از نیویورک به فلوریدا و پرواز از فلوریدا به نیویورک نیستند. این مجموعه داده شامل 108463 جفت برچسب‌گذاری شده توسط انسان و 656 هزار جفت برچسب‌گذاری شده با نویز است که اهمیت مدل‌سازی ساختار، بافت و اطلاعات ترتیب کلمه را برای مشکل شناسایی بازنویسی نشان می‌دهد.

برای جزئیات بیشتر، به مقاله همراه مراجعه کنید: PAWS: Paraphrase Adversaries from Word Scrambling در https://arxiv.org/abs/1904.01130

این مجموعه شامل جفت‌هایی است که از صفحات ویکی‌پدیا تولید شده‌اند، که شامل جفت‌هایی است که از هر دو روش جابجایی کلمه و ترجمه برگشتی ایجاد می‌شوند. همه جفت‌ها قضاوت‌های انسانی هم در بازنویسی و هم روانی دارند و به بخش‌های Train/Dev/Test تقسیم می‌شوند.

همه فایل ها با فرمت tsv با چهار ستون هستند:

id : یک شناسه منحصر به فرد برای هر جفت.
sentence1 1: جمله اول.
sentence2 2: جمله دوم.
(noisy_)label : (نویز) برچسب برای هر جفت.

هر برچسب دارای دو مقدار ممکن است: 0 نشان می دهد که جفت معنای متفاوتی دارد، در حالی که 1 نشان می دهد که جفت یک پارافراسی است.

اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/google-research-datasets/paws
کد منبع : tfds.datasets.paws_wiki.Builder
نسخه ها :
- 1.0.0 : نسخه اولیه.
- 1.1.0 (پیش فرض): تنظیمات را به زیر مجموعه های مختلف اضافه می کند و از متن خام پشتیبانی می کند.
حجم دانلود : 57.47 MiB
ساختار ویژگی :

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})

مستندات ویژگی :

ویژگی	کلاس	نوع D
	FeaturesDict
برچسب	ClassLabel	int64
جمله 1	متن	رشته
جمله 2	متن	رشته

کلیدهای نظارت شده (به as_supervised doc مراجعه کنید): None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :

@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}

paws_wiki/labeled_final_tokenized (پیکربندی پیش‌فرض)

توضیحات پیکربندی : زیر مجموعه: labeled_final tokenized: True
حجم مجموعه داده : 17.96 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'test'`	8000
`'train'`	49,401
`'validation'`	8000

مثال‌ها ( tfds.as_dataframe ):

paws_wiki/labeled_final_raw

توضیحات پیکربندی : زیر مجموعه: labeled_final tokenized: False
حجم مجموعه داده : 17.57 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'test'`	8000
`'train'`	49,401
`'validation'`	8000

مثال‌ها ( tfds.as_dataframe ):

paws_wiki/labeled_swap_tokenized

توضیحات پیکربندی : زیر مجموعه: labeled_swap tokenized: True
حجم مجموعه داده : 8.79 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'train'`	30,397

مثال‌ها ( tfds.as_dataframe ):

paws_wiki/labeled_swap_raw

توضیحات پیکربندی : زیر مجموعه: labeled_swap tokenized: False
حجم مجموعه داده : 8.60 MiB
ذخیره خودکار ( اسناد ): بله
تقسیم ها :

شکاف	مثال ها
`'train'`	30,397

مثال‌ها ( tfds.as_dataframe ):

paws_wiki/unlabeled_final_tokenized

توضیحات پیکربندی : زیر مجموعه: unlabeled_final tokenized: درست است
حجم مجموعه داده : 177.89 MiB
ذخیره‌سازی خودکار ( مستندات ): بله (تایید اعتبار)، فقط زمانی که shuffle_files=False (قطار)
تقسیمات :

شکاف	مثال ها
`'train'`	645652
`'validation'`	10000

مثال‌ها ( tfds.as_dataframe ):

paws_wiki با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.