paws_x_wiki

  • توضیحات :

این مجموعه داده شامل 23659 جفت ارزیابی PAWS ترجمه شده توسط انسان و 296406 جفت آموزشی ترجمه شده ماشینی به شش زبان از نظر گونه‌شناسی متمایز است:

  • فرانسوی
  • اسپانیایی
  • آلمانی
  • چینی ها
  • ژاپنی
  • کره ای

برای جزئیات بیشتر، مقاله همراه را ببینید: PAWS-X: مجموعه داده های متضاد متقابل بین زبانی برای شناسایی پارافراسی در https://arxiv.org/abs/1908.11828

مشابه PAWS Dataset، نمونه‌ها به بخش‌های Train/Dev/Test تقسیم می‌شوند. همه فایل ها با فرمت tsv با چهار ستون هستند:

  1. id : یک شناسه منحصر به فرد برای هر جفت.
  2. sentence1 1: جمله اول.
  3. sentence2 2: جمله دوم.
  4. (noisy_)label : (نویز) برچسب برای هر جفت.

هر برچسب دارای دو مقدار ممکن است: 0 نشان می دهد که جفت معنای متفاوتی دارد، در حالی که 1 نشان می دهد که جفت یک پارافراسی است.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
برچسب ClassLabel int64
جمله 1 متن رشته
جمله 2 متن رشته
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki/de (پیکربندی پیش‌فرض)

  • توضیحات پیکربندی : به de ترجمه شده است

  • حجم مجموعه داده : 15.27 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 2000
'train' 49,380
'validation' 2000

paws_x_wiki/en

  • توضیحات پیکربندی : ترجمه شده به en

  • حجم مجموعه داده : 14.59 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 2000
'train' 49,175
'validation' 2000

paws_x_wiki/es

  • توضیحات پیکربندی : به es ترجمه شده است

  • حجم مجموعه داده : 15.27 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 2000
'train' 49,401
'validation' 1,961

paws_x_wiki/fr

  • توضیحات پیکربندی : ترجمه شده به fr

  • حجم مجموعه داده : 15.79 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 2000
'train' 49,399
'validation' 1,988

paws_x_wiki/ja

  • توضیحات پیکربندی : به ja ترجمه شده است

  • حجم مجموعه داده : 17.77 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 2000
'train' 49,401
'validation' 2000

paws_x_wiki/ko

  • توضیحات پیکربندی : به ko ترجمه شده است

  • حجم مجموعه داده : 16.42 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 1999
'train' 49,164
'validation' 2000

paws_x_wiki/zh

  • توضیحات پیکربندی : به zh ترجمه شده است

  • حجم مجموعه داده : 13.20 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 2000
'train' 49,401
'validation' 2000