امروز برای رویداد محلی TensorFlow خود در همه جا پاسخ دهید!
این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

فوق العاده چسب

  • توضیحات :

SuperGLUE ( https://super.gluebenchmark.com/ ) معیار جدیدی است که پس از GLUE با مجموعه ای جدید از وظایف دشوارتر برای درک زبان ، منابع بهبود یافته و یک جدول رده بندی عمومی جدید ، سبک جدیدی ارائه شده است.

  • کد منبع :tfds.text.SuperGlue

  • نسخه ها :

    • 1.0.2 (پیش فرض): بدون یادداشت انتشار.
  • اندازه مجموعه داده : Unknown size

  • ذخیره خودکار ( مستندات ): ناشناخته است

  • کلیدهای تحت نظارت (به as_supervised سند نظارت شده مراجعه کنید): None

  • شکل ( tfds.show_examples ): پشتیبانی نمی شود.

super_glue / boolq (پیکربندی پیش فرض)

  • شرح پیکربندی : BoolQ (Boolean Questions، Clark et al.، 2019a) یک کار QA است که در آن هر مثال شامل یک قسمت کوتاه و یک سوال بله / خیر در مورد قسمت است. س questionsالات توسط کاربران موتور جستجوی Google به صورت ناشناس و ناخواسته ارائه می شود و پس از آن با پاراگرافی از یک مقاله ویکی پدیا حاوی پاسخ مرتبط می شود. به دنبال کار اصلی ، ما با دقت ارزیابی می کنیم.

  • صفحه اصلی : https://github.com/google-research-datasets/boolean-questions

  • حجم دانلود : 3.93 MiB

  • تقسیم :

شکاف مثال ها
'test' 3،245
'train' 9،427
'validation' 3،270
  • ویژگی ها :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'passage': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • نقل قول :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / cb

  • شرح پیکربندی : The CommitmentBank (De Marneffe و همکاران ، 2019) مجموعه ای از متون کوتاه است که در آن حداقل یک جمله حاوی یک بند تعبیه شده است. هر یک از این بندهای تعبیه شده با درجه ای که انتظار داریم شخصی که متن را نوشت به حقیقت بند متعهد است ، حاشیه نویسی شده است. وظیفه حاصل از آن به عنوان الگوی متنی سه کلاسه در مورد نمونه هایی که از وال استریت ژورنال ، داستان از پیکره ملی بریتانیا و تابلو استخراج شده اند ، ارائه شده است. هر مثال شامل یک پیش فرض است که حاوی یک جمله جاسازی شده است و فرضیه مربوطه استخراج آن بند است. ما از زیرمجموعه داده ای استفاده می کنیم که دارای توافق نامه بین حاشیه نویسان بالاتر از 0.85 باشد. داده ها نامتعادل هستند (مثالهای خنثی نسبتاً کمتری) ، بنابراین ما با استفاده از دقت و F1 ارزیابی می کنیم ، جایی که برای چند کلاس F1 میانگین بدون وزن F1 در هر کلاس را محاسبه می کنیم.

  • صفحه اصلی : https://github.com/mcdm/CommitmentBank

  • اندازه 73.71 KiB : 73.71 KiB

  • تقسیم :

شکاف مثال ها
'test' 250
'train' 250
'validation' 56
  • ویژگی ها :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • نقل قول :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / کوپا

  • توصیف پیکربندی : مجموعه داده های گزینه گزینه های قابل قبول (COPA ، Roemmele و همکاران ، 2011) یک وظیفه استدلال علی است که در آن به یک سیستم یک جمله مقدماتی و دو گزینه احتمالی داده می شود. سیستم باید گزینه دیگری را انتخاب کند که رابطه علیت معقول تری با مقدمه داشته باشد. روشی که برای ساخت گزینه های به کار رفته تضمین می کند که این کار برای حل نیاز به استدلال علی دارد. مثالها یا با علل احتمالی جایگزین یا با اثرات احتمالی جایگزین جمله مقدماتی سروکار دارند ، که همراه با یک س simpleال ساده است که بین دو نوع نمونه برای مدل ابهام دارد. همه نمونه ها به صورت دست ساز ساخته شده اند و بر موضوعات وبلاگ های آنلاین و دائر enالمعارف مربوط به عکاسی تمرکز دارند. به دنبال توصیه نویسندگان ، ما با استفاده از دقت ارزیابی می کنیم.

  • صفحه اصلی : http://people.ict.usc.edu/~gordon/copa.html

  • حجم بارگیری : 42.96 KiB

  • تقسیم :

شکاف مثال ها
'test' 500
'train' 400
'validation' 100
  • ویژگی ها :
FeaturesDict({
    'choice1': Text(shape=(), dtype=tf.string),
    'choice2': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • نقل قول :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / multirc

  • شرح پیکربندی : مجموعه داده درک مطلب چند جمله ای (MultiRC ، Khashabi و همکاران ، 2018) یک کار پاسخگویی به سوال درست یا غلط است. هر مثال شامل یک پاراگراف زمینه ای ، یک سوال در مورد آن پاراگراف و یک لیست از پاسخ های احتمالی این سوال است که باید برچسب درست یا نادرست داشته باشد. پاسخ به س Questionال (QA) یک مشکل محبوب در بسیاری از مجموعه های داده است. ما از MultiRC به دلیل تعدادی از خصوصیات مطلوب استفاده می کنیم: (i) هر س canال می تواند چندین پاسخ صحیح ممکن داشته باشد ، بنابراین هر جفت س questionال و جواب باید مستقل از جفتهای دیگر ارزیابی شود ، (ب) س questionsالات به گونه ای طراحی شده اند که پاسخ دادن به هر س requiresال نیاز دارد ترسیم حقایق از جملات متن چندگانه ، و (iii) قالب جفت س questionال و پاسخ با API سایر وظایف SuperGLUE بیشتر از QA استخراجی مبتنی بر دهانه مطابقت دارد. پاراگراف ها از هفت حوزه شامل اخبار ، داستان ها و متن تاریخی تهیه شده اند.

  • صفحه اصلی : https://cogcomp.org/multirc/

  • اندازه بارگیری : 1.06 MiB

  • تقسیم :

شکاف مثال ها
'test' 9،693
'train' 27،243
'validation' 4848
  • ویژگی ها :
FeaturesDict({
    'answer': Text(shape=(), dtype=tf.string),
    'idx': FeaturesDict({
        'answer': tf.int32,
        'paragraph': tf.int32,
        'question': tf.int32,
    }),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • نقل قول :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / record

  • شرح پیکربندی : (خواندن درک مطلب با Commonsense Reasoning Dataset، Zhang et al.، 2018) یک کار چند گزینه ای QA است. هر مثال متشکل از یک مقاله خبری و یک سوال به سبک Cloze درباره مقاله ای است که در آن یک موجودیت مخفی شده است. سیستم باید موجودیت نقاب دار را از لیست مشخص موجودیت های موجود در گذرگاه ارائه شده پیش بینی کند ، در حالی که ممکن است موجودیت یکسانی با استفاده از چندین فرم مختلف سطح بیان شود ، که همه آنها صحیح در نظر گرفته می شوند. مقالات از CNN و Daily Mail تهیه شده اند. به دنبال کار اصلی ، ما با حداکثر (بیش از همه موارد ذکر شده) سطح F1 و مطابقت دقیق (EM) ارزیابی می کنیم.

  • صفحه اصلی : https://sheng-z.github.io/ReCoRD-explorer/

  • اندازه بارگیری : 49.36 MiB

  • تقسیم :

شکاف مثال ها
'test' 10000
'train' 100،730
'validation' 10000
  • ویژگی ها :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=tf.string)),
    'entities': Sequence(Text(shape=(), dtype=tf.string)),
    'idx': FeaturesDict({
        'passage': tf.int32,
        'query': tf.int32,
    }),
    'passage': Text(shape=(), dtype=tf.string),
    'query': Text(shape=(), dtype=tf.string),
})
  • نقل قول :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / rte

  • توصیف پیکربندی : مجموعه داده های Recognising Textable Entailment (RTE) از یک سری مسابقات سالانه مرتبط با متن ایجاد می شود ، مسئله پیش بینی اینکه آیا یک جمله فرض معین جمله ای فرضیه معین را به همراه دارد (به عنوان استنباط زبان طبیعی ، NLI نیز شناخته می شود). RTE قبلاً در GLUE گنجانده شده بود و ما از همان داده ها و قالب های قبلی استفاده می کنیم: ما داده های RTE1 (Dagan و همکاران ، 2006) ، RTE2 (Bar Haim و همکاران ، 2006) ، RTE3 (Giampiccolo و همکاران ، 2007) ، و RTE5 (Bentivogli و همکاران ، 2009). تمام مجموعه های داده با هم ترکیب می شوند و به طبقه بندی دو طبقه تبدیل می شوند: الزام و نه_نتایل. از بین تمام وظایف GLUE ، RTE از جمله افرادی بود که از یادگیری انتقال بیشترین بهره را می برد ، از عملکرد تقریباً تصادفی (56 ~) در زمان راه اندازی GLUE به دقت 85٪ (لیو و همکاران ، 2019c) در زمان نوشتن با توجه به فاصله هشت نقطه ای با توجه به عملکرد انسان ، هنوز این کار توسط ماشین آلات حل نشده است و ما انتظار داریم شکاف باقی مانده برای رفع مشکل باشد.

  • صفحه اصلی : https://aclweb.org/aclwiki/Recognising_Textual_Entailment

  • اندازه 733.32 KiB : 733.32 KiB

  • تقسیم :

شکاف مثال ها
'test' 3000
'train' 2،490
'validation' 277
  • ویژگی ها :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • نقل قول :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wic

  • شرح پیکربندی : مجموعه داده Word-in-Context (WiC ، Pilehvar و Camacho-Collados ، 2019) از یک وظیفه ابهام زدایی کلمه به عنوان طبقه بندی باینری بر روی جفت جمله ها پشتیبانی می کند. با توجه به دو جمله و یک کلمه چند منظوره (مفهوم مبهم) که در هر دو جمله وجود دارد ، وظیفه این است که تعیین کند آیا این کلمه در هر دو جمله با یک معنی استفاده شده است. جملات از WordNet (میلر ، 1995) ، VerbNet (شولر ، 2005) و ویکی پدیا گرفته شده است. ما کار اصلی را دنبال می کنیم و با استفاده از دقت ارزیابی می کنیم.

  • صفحه اصلی : https://pilehvar.github.io/wic/

  • اندازه 386.93 KiB : 386.93 KiB

  • تقسیم :

شکاف مثال ها
'test' 1400
'train' 5428
'validation' 638
  • ویژگی ها :
FeaturesDict({
    'end1': tf.int32,
    'end2': tf.int32,
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
    'start1': tf.int32,
    'start2': tf.int32,
    'word': Text(shape=(), dtype=tf.string),
})
  • نقل قول :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc

  • شرح پیکربندی : Winograd Schema Challenge (WSC ، Levesque و همکاران ، 2012) یک کار درک مطلب است که در آن یک سیستم باید یک جمله را با ضمیر بخواند و مرجع آن ضمیر را از لیست گزینه ها انتخاب کند. با توجه به دشواری این کار و فضای خالی هنوز باقی مانده است ، ما WSC را در SuperGLUE گنجانده ایم و مجموعه داده را در فرم اصلی آن مجدداً اصلاح می کنیم. وظیفه به عنوان یک مسئله طبقه بندی باینری مطرح می شود ، در مقابل گزینه N-multiple ، برای جدا کردن توانایی مدل در درک پیوندهای هسته در جمله ، در مقابل استراتژی های مختلف دیگر که ممکن است در شرایط چند گزینه ای بازی کنند. با این حساب ، ما یک شکاف با 65٪ کلاس اکثریت منفی در مجموعه اعتبار سنجی ایجاد می کنیم ، که منعکس کننده توزیع مجموعه آزمون پنهان و 52٪ کلاس منفی در مجموعه آموزش است. نمونه های آموزش و اعتبارسنجی از مجموعه اصلی Winograd Schema (Levesque و همکاران ، 2012) و همچنین موارد توزیع شده توسط سازمان وابسته Commonsense Reasoning گرفته شده است. نمونه های آزمون از کتاب های داستانی گرفته شده است و توسط نویسندگان مجموعه داده اصلی با ما به اشتراک گذاشته شده است. پیش از این ، نسخه ای از WSC با عنوان NLI که در GLUE وجود دارد ، به عنوان WNLI شناخته می شود. هیچ پیشرفت قابل توجهی در WNLI حاصل نشد ، با بسیاری از مطالب ارائه شده ، ترجیح می دهند فقط پیش بینی کلاس اکثریت را ارائه دهند. WNLI به دلیل یک تقارن خصمانه / تقسیم توسعه دشوار شد: جملات مقدماتی که در مجموعه آموزش ظاهر می شوند ، گاهی اوقات در مجموعه توسعه با فرضیه متفاوت و برچسب واژگون ظاهر می شوند. اگر سیستمی مجموعه آموزش را بدون تعمیم معنادار به خاطر بسپارد ، که به دلیل کوچک بودن مجموعه آموزش آسان بود ، می تواند عملکرد بسیار کمتری در مجموعه توسعه داشته باشد. ما با اطمینان از عدم تقسیم جملات بین مجموعه های آموزشی ، اعتبار سنجی و آزمون ، این طرح خصمانه را در نسخه SuperGLUE از WSC حذف می کنیم.

با این حال ، مجموعه های اعتبار سنجی و آزمایش از حوزه های مختلفی ارائه می شوند ، مجموعه اعتبارسنجی متشکل از مثالهای مبهم است به طوری که تغییر یک کلمه عبارتی غیر اسمی باعث تغییر وابستگی های هسته در جمله می شود. مجموعه آزمون فقط شامل مثالهای ساده تری است ، با تعداد زیادی عبارات اسمی (و بنابراین گزینه های بیشتری برای مدل) ، اما کم و بدون ابهام.

شکاف مثال ها
'test' 146
'train' 554
'validation' 104
  • ویژگی ها :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • نقل قول :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc.fixed

  • شرح پیکربندی : چالش طرحواره Winograd (WSC ، Levesque و همکاران ، 2012) یک کار درک مطلب است که در آن یک سیستم باید یک جمله را با ضمیر بخواند و مرجع آن ضمیر را از لیست انتخابها انتخاب کند. با توجه به دشواری این کار و فضای خالی هنوز باقی مانده است ، ما WSC را در SuperGLUE گنجانده ایم و مجموعه داده را در فرم هسته خود بازآفرینی می کنیم. وظیفه به عنوان یک مسئله طبقه بندی باینری مطرح می شود ، در مقابل گزینه N-multiple ، به منظور جدا کردن توانایی مدل در درک پیوندهای هسته در جمله ، در مقابل استراتژی های مختلف دیگر که ممکن است در شرایط چند گزینه ای بازی کنند. با این حساب ، ما یک شکاف با 65٪ کلاس اکثریت منفی در مجموعه اعتبار سنجی ایجاد می کنیم ، که منعکس کننده توزیع مجموعه آزمون پنهان و 52٪ کلاس منفی در مجموعه آموزش است. نمونه های آموزش و اعتبارسنجی از مجموعه اصلی Winograd Schema (Levesque و همکاران ، 2012) و همچنین موارد توزیع شده توسط سازمان وابسته Commonsense Reasoning گرفته شده است. نمونه های آزمون از کتاب های داستانی گرفته شده است و توسط نویسندگان مجموعه داده اصلی با ما به اشتراک گذاشته شده است. پیش از این ، نسخه ای از WSC با عنوان NLI که در GLUE وجود دارد ، به عنوان WNLI شناخته می شود. هیچ پیشرفت قابل توجهی در WNLI حاصل نشد ، با بسیاری از مطالب ارائه شده ، ترجیح می دهند فقط پیش بینی کلاس اکثریت را ارائه دهند. WNLI به دلیل یک تقارن خصمانه / تقسیم توسعه دشوار شد: جملات مقدماتی که در مجموعه آموزش ظاهر می شوند ، گاهی اوقات در مجموعه توسعه با فرضیه متفاوت و برچسب واژگون ظاهر می شوند. اگر سیستمی مجموعه آموزش را بدون تعمیم معنادار به خاطر بسپارد ، که به دلیل کوچک بودن مجموعه آموزش آسان بود ، می تواند عملکرد بسیار کمتری در مجموعه توسعه داشته باشد. ما با اطمینان از عدم تقسیم جملات بین مجموعه های آموزشی ، اعتبار سنجی و آزمون ، این طرح خصمانه را در نسخه SuperGLUE از WSC حذف می کنیم.

با این حال ، مجموعه های اعتبار سنجی و آزمایش از حوزه های مختلفی ارائه می شوند ، مجموعه اعتبارسنجی متشکل از مثالهای مبهم است به طوری که تغییر یک کلمه عبارتی غیر اسمی باعث تغییر وابستگی های هسته در جمله می شود. مجموعه آزمون فقط شامل مثالهای ساده تری است ، با تعداد زیادی عبارات اسمی (و بنابراین گزینه های بیشتری برای مدل) ، اما کم و بدون ابهام.

این نسخه مواردی را حل می کند که دهانه ها در واقع زیرستانه متن نباشند.

شکاف مثال ها
'test' 146
'train' 554
'validation' 104
  • ویژگی ها :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • نقل قول :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / axb

  • شرح پیکربندی : یک مجموعه داده تشخیصی ساخته شده توسط متخصص است که به طور خودکار مدل ها را برای طیف گسترده ای از دانش زبانی ، عرفی و جهانی آزمایش می کند. هر مثال در این روش عیب یابی با پوشش گسترده ، یک جفت جمله است که با یک رابطه وابسته سه جانبه (القاment ، خنثی یا تناقض) برچسب خورده است و دارای برچسب هایی است که نشان دهنده پدیده های مشخص کننده رابطه بین دو جمله است. موارد ارسالی به صفحه اصلی GLUE شامل پیش بینی های طبقه بندی MultiNLI ارسال شده در مجموعه داده های تشخیصی است و تجزیه و تحلیل نتایج در کنار صفحه اصلی نشان داده شده است. از آنجا که این وظیفه تشخیصی پوشش گسترده برای مدلهای برتر دشوار به اثبات رسیده است ، ما آن را در SuperGLUE حفظ می کنیم. با این حال ، از آنجا که MultiNLI بخشی از SuperGLUE نیست ، ما تناقض و خنثی را به یک برچسب ناپیوستگی ناپیوسته تبدیل می کنیم ، و درخواست می کنیم که موارد ارسالی شامل پیش بینی مجموعه حاصل از مدل مورد استفاده برای کار RTE باشد.

  • صفحه اصلی : https://gluebenchmark.com/diagnostics

  • اندازه بارگیری : 33.15 KiB

  • تقسیم :

شکاف مثال ها
'test' 1،104
  • ویژگی ها :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • نقل قول :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / axg

  • توضیحات پیکربندی : Winogender برای اندازه گیری تعصب جنسیتی در سیستم های تفکیک هسته طراحی شده است. ما از نسخه متنوع استنتاج زبان طبیعی متنوع (DNC ؛ Poliak و همکاران ، 2018) استفاده می کنیم که Winogender را به عنوان یک وظیفه متنی متناسب با آن انتخاب می کند. هر مثال متشکل از یک جمله مقدماتی با ضمیر نر یا ماده و یک فرضیه است که می تواند پیشینی ضمیر را ارائه دهد. مثالها در جفتهای حداقل اتفاق می افتد ، جایی که تنها تفاوت یک مثال با جفت آن در جنس ضمیر در مقدمه است. عملکرد در Winogender با دقت و نمره برابری جنسیتی اندازه گیری می شود: درصد حداقل جفتهایی که پیش بینی آنها یکسان است. توجه داریم که یک سیستم می تواند با حدس زدن در همان کلاس برای همه مثال ها ، به طور پیش پا افتاده نمره برابری جنسیتی کامل را بدست آورد ، بنابراین نمره برابری جنسیتی بالا معنایی ندارد مگر اینکه با دقت بالا همراه باشد. به عنوان یک آزمایش تشخیصی سوگیری جنسیتی ، ما طرحواره ها را دارای ارزش اخباری مثبت و ارزش اخباری منفی پایین می دانیم. یعنی ممکن است وجود سوگیری جنسیتی را در یک سیستم نشان دهند ، اما عدم وجود آن را ثابت نمی کنند.

  • صفحه اصلی : https://github.com/rudinger/winogender-schemas

  • اندازه بارگیری : 10.17 KiB

  • تقسیم :

شکاف مثال ها
'test' 356
  • ویژگی ها :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • نقل قول :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.