لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

صمغ ممتاز

  • الوصف :

SuperGLUE ( https://super.gluebenchmark.com/ ) هو معيار جديد تم تصميمه بعد GLUE مع مجموعة جديدة من مهام فهم اللغة الأكثر صعوبة ، والموارد المحسنة ، ولوحة المتصدرين العامة الجديدة.

  • كود المصدر :tfds.text.SuperGlue

  • إصدارات :

    • 1.0.2 (افتراضي): لا توجد ملاحظات حول الإصدار.
  • حجم مجموعة البيانات : Unknown size

  • التخزين المؤقت التلقائي ( الوثائق ): غير معروف

  • المفاتيح الخاضعة للإشراف (انظر المستند as_supervised ): None

  • الشكل ( tfds.show_examples ): غير مدعوم.

super_glue / boolq (التكوين الافتراضي)

  • وصف التكوين : BoolQ (Boolean Questions، Clark et al.، 2019a) هي مهمة لضمان الجودة حيث يتكون كل مثال من مقطع قصير وسؤال بنعم / لا حول المقطع. يتم تقديم الأسئلة بشكل مجهول وغير مرغوب فيه من قبل مستخدمي محرك بحث Google ، وبعد ذلك يتم إقرانها بفقرة من مقالة Wikipedia تحتوي على الإجابة. بعد العمل الأصلي ، نقوم بالتقييم بدقة.

  • الصفحة الرئيسية : https://github.com/google-research-datasets/boolean-questions

  • حجم التحميل : 3.93 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 3245
'train' 9427
'validation' 3270
  • الميزات :
0c92bac0
  • الاقتباس :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / cb

  • وصف التكوين : The CommitmentBank (De Marneffe et al. ، 2019) عبارة عن مجموعة من النصوص القصيرة تحتوي فيها جملة واحدة على الأقل على جملة مضمنة. يتم شرح كل من هذه الجمل المضمنة بالدرجة التي نتوقع بها أن الشخص الذي كتب النص ملتزم بحقيقة الجملة. تم تأطير المهمة الناتجة على أنها استدلالات نصية من ثلاث فئات على أمثلة مأخوذة من صحيفة وول ستريت جورنال ، ورواية من مجموعة National Corpus البريطانية ، و Switchboard. يتكون كل مثال من فرضية تحتوي على جملة مضمنة والفرضية المقابلة هي استخراج هذا البند. نحن نستخدم مجموعة فرعية من البيانات التي لديها اتفاق بين التعليقات التوضيحية أعلى من 0.85. البيانات غير متوازنة (عدد أقل نسبيًا من الأمثلة المحايدة) ، لذلك نقوم بالتقييم باستخدام الدقة و F1 ، حيث بالنسبة للفئات المتعددة F1 نحسب المتوسط ​​غير المرجح للفئة F1 لكل فئة.

  • الصفحة الرئيسية : https://github.com/mcdm/CommitmentBank

  • حجم التحميل : 73.71 KiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 250
'train' 250
'validation' 56
  • الميزات :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • الاقتباس :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / كأس

  • وصف التكوين : مجموعة البيانات "اختيار البدائل المعقولة" (COPA، Roemmele et al.، 2011) هي مهمة تفكير سببية يتم فيها إعطاء النظام جملة افتراضية وبديلين محتملين. يجب أن يختار النظام البديل الذي له علاقة سببية معقولة أكثر مع المقدمة. تضمن الطريقة المستخدمة لبناء البدائل أن المهمة تتطلب تفكيرًا سببيًا لحلها. تتعامل الأمثلة إما مع الأسباب المحتملة البديلة أو الآثار المحتملة البديلة للجملة الافتتاحية ، مصحوبة بسؤال بسيط يزيل الغموض بين نوعي المثال للنموذج. جميع الأمثلة مصنوعة يدويًا وتركز على موضوعات من مدونات عبر الإنترنت وموسوعة متعلقة بالتصوير الفوتوغرافي. باتباع توصيات المؤلفين ، نقوم بتقييم استخدام الدقة.

  • الصفحة الرئيسية : http://people.ict.usc.edu/~gordon/copa.html

  • حجم التحميل : 42.96 KiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 500
'train' 400
'validation' 100
  • الميزات :
FeaturesDict({
    'choice1': Text(shape=(), dtype=tf.string),
    'choice2': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • الاقتباس :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / مولتيرك

  • وصف التكوين : مجموعة بيانات الاستيعاب القرائي متعدد الجمل (MultiRC، Khashabi et al.، 2018) هي مهمة الإجابة عن أسئلة صواب / خطأ. يتكون كل مثال من فقرة سياق ، وسؤال حول تلك الفقرة ، وقائمة بالإجابات المحتملة على هذا السؤال والتي يجب تصنيفها على أنها صحيحة أو خاطئة. تعد الإجابة عن الأسئلة (QA) مشكلة شائعة في العديد من مجموعات البيانات. نستخدم MultiRC نظرًا لعدد من الخصائص المرغوبة: (1) يمكن أن يكون لكل سؤال عدة إجابات صحيحة محتملة ، لذلك يجب تقييم كل زوج من الأسئلة والأجوبة بشكل مستقل عن الأزواج الأخرى ، (2) تم تصميم الأسئلة بحيث تتطلب الإجابة عن كل سؤال استخلاص الحقائق من جمل سياق متعددة ، و (3) تنسيق زوج السؤال والإجابة يتطابق بشكل وثيق مع واجهة برمجة التطبيقات لمهام SuperGLUE الأخرى أكثر من QA الاستخراجي القائم على الامتداد. الفقرات مأخوذة من سبعة مجالات بما في ذلك الأخبار والخيال والنص التاريخي.

  • الصفحة الرئيسية https://cogcomp.org/multirc/

  • حجم التحميل : 1.06 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 9،693
'train' 27243
'validation' 4848
  • الميزات :
FeaturesDict({
    'answer': Text(shape=(), dtype=tf.string),
    'idx': FeaturesDict({
        'answer': tf.int32,
        'paragraph': tf.int32,
        'question': tf.int32,
    }),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • الاقتباس :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / سجل

  • وصف التكوين : (Reading Comprehension with Commonsense Reasoning Dataset، Zhang et al.، 2018) عبارة عن مهمة سؤال وجواب متعددة الاختيارات. يتكون كل مثال من مقال إخباري وسؤال من نمط Cloze حول المقالة التي يتم إخفاء كيان واحد فيها. يجب أن يتنبأ النظام بالكيان المقنع من قائمة معينة من الكيانات المحتملة في المقطع المقدم ، حيث يمكن التعبير عن نفس الكيان باستخدام أشكال سطحية مختلفة متعددة ، وكلها تعتبر صحيحة. المقالات مأخوذة من سي إن إن وديلي ميل. بعد العمل الأصلي ، نقوم بالتقييم بحد أقصى (على جميع الإشارات) على مستوى الرمز المميز F1 والمطابقة التامة (EM).

  • الصفحة الرئيسية : https://sheng-z.github.io/ReCoRD-explorer/

  • حجم التحميل : 49.36 MiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 10000
'train' 100730
'validation' 10000
  • الميزات :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=tf.string)),
    'entities': Sequence(Text(shape=(), dtype=tf.string)),
    'idx': FeaturesDict({
        'passage': tf.int32,
        'query': tf.int32,
    }),
    'passage': Text(shape=(), dtype=tf.string),
    'query': Text(shape=(), dtype=tf.string),
})
  • الاقتباس :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / rte

  • وصف التكوين : تأتي مجموعات بيانات التعرف على الاستنتاج النصي (RTE) من سلسلة من المسابقات السنوية حول الاستدلال النصي ، مشكلة التنبؤ بما إذا كانت جملة فرضية معينة تستلزم جملة فرضية معينة (المعروف أيضًا باسم الاستدلال اللغوي الطبيعي ، NLI). تم تضمين RTE سابقًا في GLUE ، ونستخدم نفس البيانات والتنسيق كما في السابق: نقوم بدمج البيانات من RTE1 (Dagan et al. ، 2006) ، RTE2 (Bar Haim et al. ، 2006) ، RTE3 (Giampiccolo et al. ، 2007) ، و RTE5 (بنتيفولي وآخرون ، 2009). يتم دمج جميع مجموعات البيانات وتحويلها إلى تصنيف من فئتين: الاستلزام وعدم التضمين. من بين جميع مهام GLUE ، كانت RTE من بين أولئك الذين استفادوا من نقل التعلم أكثر من غيرهم ، حيث قفزوا من الأداء شبه العشوائي (~ 56٪) في وقت إطلاق GLUE إلى دقة 85٪ (Liu et al. ، 2019c) في وقت الكتابة. ومع ذلك ، نظرًا للفجوة المكونة من ثماني نقاط فيما يتعلق بالأداء البشري ، لم يتم حل المهمة بعد بواسطة الآلات ، ونتوقع أن يكون من الصعب إغلاق الفجوة المتبقية.

  • الصفحة الرئيسية : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • حجم التحميل : 733.32 KiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 3000
'train' 2490
'validation' 277
  • الميزات :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • الاقتباس :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / WIC

  • وصف التكوين : تدعم مجموعة البيانات Word-in-Context (WiC و Pilehvar و Camacho-Collados ، 2019) مهمة توضيح معنى الكلمة المصبوب كتصنيف ثنائي على أزواج الجمل. بالنظر إلى جملتين وكلمة متعددة المعاني (معنى غامضة) تظهر في كلتا الجملتين ، فإن المهمة هي تحديد ما إذا كانت الكلمة تستخدم بنفس المعنى في كلتا الجملتين. الجمل مأخوذة من WordNet (Miller ، 1995) ، VerbNet (Schuler ، 2005) ، و Wiktionary. نتابع العمل الأصلي ونقيمه بدقة.

  • الصفحة الرئيسية : https://pilehvar.github.io/wic/

  • حجم التحميل : 386.93 KiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 1400
'train' 5428
'validation' 638
  • الميزات :
FeaturesDict({
    'end1': tf.int32,
    'end2': tf.int32,
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
    'start1': tf.int32,
    'start2': tf.int32,
    'word': Text(shape=(), dtype=tf.string),
})
  • الاقتباس :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc

  • وصف التكوين : The Winograd Schema Challenge (WSC، Levesque et al.، 2012) عبارة عن مهمة لفهم القراءة حيث يجب على النظام قراءة جملة بضمير واختيار المرجع لهذا الضمير من قائمة الاختيارات. نظرًا لصعوبة هذه المهمة وما زالت المساحة العلوية متبقية ، فقد قمنا بتضمين WSC في SuperGLUE وأعدنا صياغة مجموعة البيانات في شكلها المرجعي. يتم عرض المهمة على أنها مشكلة تصنيف ثنائية ، على عكس الاختيار المتعدد N ، من أجل عزل قدرة النموذج على فهم الروابط المرجعية داخل جملة بدلاً من الاستراتيجيات الأخرى المختلفة التي قد تلعب دورًا في ظروف الاختيار من متعدد. مع أخذ ذلك في الاعتبار ، قمنا بإنشاء تقسيم مع فئة أغلبية سلبية 65٪ في مجموعة التحقق ، مما يعكس توزيع مجموعة الاختبار المخفية ، والفصل السلبي 52٪ في مجموعة التدريب. تم استقاء أمثلة التدريب والتحقق من الصحة من مجموعة بيانات Winograd Schema الأصلية (Levesque وآخرون ، 2012) ، بالإضافة إلى تلك التي وزعتها منظمة Commonsense Reasoning التابعة لها. تم اشتقاق أمثلة الاختبار من كتب الخيال وقد تمت مشاركتها معنا من قبل مؤلفي مجموعة البيانات الأصلية. في السابق ، كان هناك نسخة من إعادة صياغة WSC كـ NLI كما هو مضمن في GLUE ، والمعروف باسم WNLI. لم يتم إحراز تقدم كبير في WNLI ، حيث اختار العديد من التقديمات تقديم توقعات فئة الأغلبية فقط. تم جعل WNLI صعبًا بشكل خاص بسبب الانقسام العدائي للقطار / التطوير: ظهرت أحيانًا الجمل الأولية التي ظهرت في مجموعة التدريب في مجموعة التطوير بفرضية مختلفة وتسمية مقلوبة. إذا حفظ النظام مجموعة التدريب دون التعميم بشكل هادف ، الأمر الذي كان سهلاً بسبب الحجم الصغير لمجموعة التدريب ، فقد يكون أداءه أقل بكثير من فرصة مجموعة التطوير. نقوم بإزالة هذا التصميم العدائي في إصدار SuperGLUE من WSC من خلال ضمان عدم مشاركة أي جمل بين مجموعات التدريب والتحقق والاختبار.

ومع ذلك ، تأتي مجموعات التحقق والاختبار من مجالات مختلفة ، مع مجموعة التحقق من الصحة التي تتكون من أمثلة غامضة مثل تغيير كلمة عبارة واحدة غير اسمية سيغير تبعيات المرجع في الجملة. تتكون مجموعة الاختبار فقط من أمثلة أكثر وضوحًا ، مع عدد كبير من العبارات الاسمية (وبالتالي المزيد من الخيارات للنموذج) ، ولكنها منخفضة أو معدومة الغموض.

انشق، مزق أمثلة
'test' 146
'train' 554
'validation' 104
  • الميزات :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • الاقتباس :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc. ثابت

  • وصف التكوين : The Winograd Schema Challenge (WSC، Levesque et al.، 2012) عبارة عن مهمة لفهم القراءة حيث يجب على النظام قراءة جملة بضمير واختيار المرجع لهذا الضمير من قائمة الاختيارات. نظرًا لصعوبة هذه المهمة وما زالت المساحة العلوية متبقية ، فقد قمنا بتضمين WSC في SuperGLUE وأعدنا صياغة مجموعة البيانات في شكلها المرجعي. يتم عرض المهمة على أنها مشكلة تصنيف ثنائية ، على عكس الاختيار المتعدد N ، من أجل عزل قدرة النموذج على فهم الروابط المرجعية داخل جملة بدلاً من الاستراتيجيات الأخرى المختلفة التي قد تلعب دورًا في ظروف الاختيار من متعدد. مع أخذ ذلك في الاعتبار ، نقوم بإنشاء تقسيم مع فئة أغلبية سلبية 65٪ في مجموعة التحقق ، مما يعكس توزيع مجموعة الاختبار المخفية ، والفصل السلبي 52٪ في مجموعة التدريب. تم أخذ أمثلة التدريب والتحقق من الصحة من مجموعة بيانات Winograd Schema الأصلية (Levesque وآخرون ، 2012) ، بالإضافة إلى تلك التي وزعتها منظمة Commonsense Reasoning التابعة لها. تم اشتقاق أمثلة الاختبار من كتب الخيال وقد تمت مشاركتها معنا من قبل مؤلفي مجموعة البيانات الأصلية. في السابق ، كان هناك نسخة من إعادة صياغة WSC كـ NLI كما هو مضمن في GLUE ، المعروف باسم WNLI. لم يتم إحراز تقدم كبير في WNLI ، حيث اختار العديد من التقديمات تقديم توقعات فئة الأغلبية فقط. تم جعل WNLI صعبًا بشكل خاص بسبب الانقسام العدائي للقطار / التطوير: ظهرت أحيانًا الجمل الأولية التي ظهرت في مجموعة التدريب في مجموعة التطوير بفرضية مختلفة وتسمية مقلوبة. إذا حفظ النظام مجموعة التدريب دون التعميم بشكل هادف ، الأمر الذي كان سهلاً بسبب الحجم الصغير لمجموعة التدريب ، فقد يكون أداءه أقل بكثير من فرصة مجموعة التطوير. نقوم بإزالة هذا التصميم العدائي في إصدار SuperGLUE من WSC من خلال ضمان عدم مشاركة أي جمل بين مجموعات التدريب والتحقق والاختبار.

ومع ذلك ، تأتي مجموعات التحقق من الصحة والاختبار من مجالات مختلفة ، مع مجموعة التحقق من الصحة التي تتكون من أمثلة غامضة مثل تغيير كلمة عبارة واحدة غير اسمية سيغير تبعيات المرجع في الجملة. تتكون مجموعة الاختبار فقط من أمثلة أكثر وضوحًا ، مع عدد كبير من العبارات الاسمية (وبالتالي المزيد من الخيارات للنموذج) ، ولكنها منخفضة أو معدومة الغموض.

يعمل هذا الإصدار على إصلاح المشكلات التي لا تكون فيها الامتدادات في الواقع سلاسل فرعية للنص.

انشق، مزق أمثلة
'test' 146
'train' 554
'validation' 104
  • الميزات :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • الاقتباس :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / axb

  • وصف التكوين : مجموعة بيانات تشخيصية من صنع الخبراء تختبر تلقائيًا نماذج لمجموعة واسعة من المعرفة اللغوية والعقلانية والعالمية. كل مثال في هذا التشخيص ذو التغطية الواسعة هو زوج جملة مُصنَّف بعلاقة ضمنية ثلاثية الاتجاهات (استنتاج ، محايد ، أو تناقض) وموسومة بعلامات تشير إلى الظواهر التي تميز العلاقة بين الجملتين. يجب أن تتضمن عمليات الإرسال إلى لوحة المتصدرين GLUE تنبؤات من مصنف MultiNLI الخاص بالتقديم على مجموعة البيانات التشخيصية ، وتم عرض تحليلات النتائج جنبًا إلى جنب مع لوحة المتصدرين الرئيسية. نظرًا لأن مهمة التشخيص ذات التغطية الواسعة قد ثبت أنها صعبة بالنسبة لأفضل الموديلات ، فإننا نحتفظ بها في SuperGLUE. ومع ذلك ، نظرًا لأن MultiNLI ليس جزءًا من SuperGLUE ، فإننا نقوم بطي التناقض والحيادية في تسمية واحدة not_entailment ، ونطلب أن تتضمن عمليات الإرسال تنبؤات على المجموعة الناتجة من النموذج المستخدم لمهمة RTE.

  • الصفحة الرئيسية : https://gluebenchmark.com/diagnostics

  • حجم التحميل : 33.15 KiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 1،104
  • الميزات :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • الاقتباس :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / AXG

  • وصف التكوين : تم تصميم Winogender لقياس التحيز بين الجنسين في أنظمة دقة المرجع. نحن نستخدم مجموعة الاستدلال اللغوي الطبيعية المتنوعة (DNC؛ Poliak et al.، 2018) التي تصور Winogender كمهمة نصية. يتكون كل مثال من جملة افتراضية مع ضمير ذكر أو أنثى وفرضية تعطي سابقة محتملة للضمير. تحدث الأمثلة في أزواج صغيرة ، حيث يكون الاختلاف الوحيد بين المثال وزوجها هو جنس الضمير في المقدمة. يُقاس الأداء على Winogender بكل من الدقة ودرجة التكافؤ بين الجنسين: النسبة المئوية للأزواج الدنيا التي تتماثل فيها التوقعات. نلاحظ أن النظام يمكن أن يحصل بشكل تافه على درجة مثالية للتكافؤ بين الجنسين من خلال تخمين نفس الفئة لجميع الأمثلة ، لذا فإن درجة التكافؤ بين الجنسين العالية لا معنى لها ما لم تكن مصحوبة بدقة عالية. كاختبار تشخيصي للتحيز الجنساني ، نرى أن المخططات ذات قيمة تنبؤية إيجابية عالية وقيمة تنبؤية سلبية منخفضة ؛ أي أنها قد تثبت وجود تحيز جنساني في نظام ما ، لكنها لا تثبت غيابه.

  • الصفحة الرئيسية : https://github.com/rudinger/winogender-schemas

  • حجم التحميل : 10.17 KiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 356
  • الميزات :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • الاقتباس :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.