لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

paws_wiki

  • الوصف :

تفتقر مجموعات بيانات تحديد إعادة الصياغة الحالية إلى أزواج الجمل التي تحتوي على تداخل معجمي مرتفع دون إعادة صياغة. النماذج المدربة على مثل هذه البيانات تفشل في التمييز بين الأزواج مثل الرحلات الجوية من نيويورك إلى فلوريدا والرحلات من فلوريدا إلى نيويورك. تحتوي مجموعة البيانات هذه على 108463 من الأزواج التي تم تصنيفها بشريًا و 656 ألفًا من الأزواج ذات العلامات الصاخبة والتي تتميز بأهمية بنية النمذجة والسياق ومعلومات ترتيب الكلمات لمشكلة تحديد إعادة الصياغة.

لمزيد من التفاصيل ، راجع الورقة المصاحبة: PAWS: إعادة صياغة صياغة أعداء من Word Scrambling على https://arxiv.org/abs/1904.01130

تحتوي هذه المجموعة على أزواج تم إنشاؤها من صفحات ويكيبيديا ، وتحتوي على أزواج تم إنشاؤها من كل من طرق تبادل الكلمات والترجمة العكسية. جميع الأزواج لديهم أحكام بشرية في كل من إعادة الصياغة والطلاقة ويتم تقسيمهم إلى أقسام تدريب / تطوير / اختبار.

جميع الملفات بتنسيق tsv بأربعة أعمدة:

معرف معرف فريد لكل زوج جملة 1 الجملة الأولى الجملة 2 الجملة الثانية (noisy_) تسمية (صاخبة) لكل زوج

تحتوي كل تسمية على قيمتين محتملتين: تشير القيمة 0 إلى أن الزوج له معنى مختلف ، بينما يشير الرقم 1 إلى أن الزوج عبارة عن إعادة صياغة.

انشق، مزق أمثلة
'test' 8000
'train' 49401
'validation' 8000
  • الميزات :
FeaturesDict({
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • الاقتباس :
@InProceedings{paws2019naacl,
  title = { {PAWS: Paraphrase Adversaries from Word Scrambling} },
  author = {Zhang, Yuan and Baldridge, Jason and He, Luheng},
  booktitle = {Proc. of NAACL},
  year = {2019}
}