لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

paws_x_wiki

  • الوصف :

تحتوي مجموعة البيانات هذه على 23،659 زوج تقييم PAWS مترجم بشري و 296،406 زوجًا تدريبيًا مترجمًا آليًا بست لغات مميزة نوعياً:

  • الفرنسية
  • الأسبانية
  • ألمانية
  • صينى
  • اليابانية
  • الكورية

لمزيد من التفاصيل ، راجع الورقة المرفقة: PAWS-X: مجموعة بيانات متعارضة متعددة اللغات لتعريف إعادة الصياغة على https://arxiv.org/abs/1908.11828

على غرار مجموعة بيانات PAWS ، يتم تقسيم الأمثلة إلى أقسام تدريب / تطوير / اختبار. جميع الملفات بتنسيق tsv بأربعة أعمدة:

معرف معرف فريد لكل زوج جملة 1 الجملة الأولى الجملة 2 الجملة الثانية (noisy_) تسمية (صاخبة) لكل زوج

تحتوي كل تسمية على قيمتين محتملتين: تشير القيمة 0 إلى أن الزوج له معنى مختلف ، بينما يشير الرقم 1 إلى أن الزوج عبارة عن إعادة صياغة.

FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
@InProceedings{pawsx2019emnlp,
  title = { {PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification} },
  author = {Yang, Yinfei and Zhang, Yuan and Tar, Chris and Baldridge, Jason},
  booktitle = {Proc. of EMNLP},
  year = {2019}
}

paws_x_wiki / de (التكوين الافتراضي)

  • وصف التكوين : ترجم إلى de

  • حجم مجموعة البيانات : 15.27 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 2000
'train' 49380
'validation' 2000

paws_x_wiki / ar

  • وصف التكوين : مترجم إلى اللغة الإنجليزية

  • حجم مجموعة البيانات : 14.59 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 2000
'train' 49175
'validation' 2000

paws_x_wiki / es

  • وصف التكوين : مترجم إلى es

  • حجم مجموعة البيانات : 15.27 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 2000
'train' 49401
'validation' 1961

paws_x_wiki / الاب

  • وصف التكوين : مترجم إلى الأب

  • حجم مجموعة البيانات : 15.79 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 2000
'train' 49399
'validation' 1،988

paws_x_wiki / جا

  • وصف التكوين : ترجم إلى ja

  • حجم مجموعة البيانات : 17.77 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 2000
'train' 49401
'validation' 2000

paws_x_wiki / كو

  • وصف التكوين : ترجم إلى ko

  • حجم مجموعة البيانات : 16.42 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 1،999
'train' 49164
'validation' 2000

paws_x_wiki / zh

  • وصف التكوين : ترجم إلى zh

  • حجم مجموعة البيانات : 13.20 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 2000
'train' 49401
'validation' 2000