09:00 पीएसटी पर एमएल संगोष्ठी इस मंगलवार, 19 अक्टूबर में पहले महिलाओं में ट्यून रजिस्टर अब

सुपर गोंद

  • विवरण:

Superglue ( https://super.gluebenchmark.com/ ) एक नए मानक GLUE के बाद स्टाइल और अधिक कठिन समझने भाषा कार्यों का एक नया सेट, बेहतर संसाधनों, और एक नया सार्वजनिक लीडरबोर्ड के साथ है।

  • स्रोत कोड: tfds.text.SuperGlue

  • संस्करण:

    • 1.0.2 (डिफ़ॉल्ट): नहीं रिलीज नोट्स।
  • डेटासेट का आकार: Unknown size

  • ऑटो-कैश ( प्रलेखन ): अज्ञात

  • पर्यवेक्षित कुंजियों (देखें as_supervised डॉक ): None

  • चित्रा ( tfds.show_examples ): समर्थित नहीं।

super_glue/boolq (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िग विवरण: BoolQ (। बूलियन प्रश्न, क्लार्क एट अल, 2019a) एक क्यूए कार्य जहां प्रत्येक उदाहरण के लिए एक छोटी यात्रा और एक हाँ / पारित होने के बारे में कोई सवाल ही नहीं होते है। प्रश्नों को Google खोज इंजन के उपयोगकर्ताओं द्वारा गुमनाम रूप से और अवांछित रूप से प्रदान किया जाता है, और बाद में उत्तर वाले विकिपीडिया लेख के अनुच्छेद के साथ जोड़ा जाता है। मूल कार्य के बाद, हम सटीकता के साथ मूल्यांकन करते हैं।

  • होमपेज: https://github.com/google-research-datasets/boolean-questions

  • डाउनलोड का आकार: 3.93 MiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 3,245
'train' 9,427
'validation' 3,270
  • विशेषताएं:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'passage': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

सुपर_ग्लू / सीबी

  • कॉन्फ़िग विवरण: (। डी Marneffe एट अल, 2019) CommitmentBank कम ग्रंथों के कोष जिसमें कम से कम एक वाक्य एक एम्बेडेड खंड शामिल हैं। इनमें से प्रत्येक एम्बेडेड क्लॉज को उस डिग्री के साथ एनोटेट किया गया है जिससे हम उम्मीद करते हैं कि जिस व्यक्ति ने टेक्स्ट लिखा है वह क्लॉज की सच्चाई के लिए प्रतिबद्ध है। परिणामी कार्य को वॉल स्ट्रीट जर्नल से लिए गए उदाहरणों पर तीन-श्रेणी की पाठ्य सामग्री के रूप में तैयार किया गया, ब्रिटिश नेशनल कॉर्पस से कथा, और स्विचबोर्ड। प्रत्येक उदाहरण में एक अंतर्निहित खंड होता है जिसमें एक अंतर्निहित खंड होता है और संबंधित परिकल्पना उस खंड का निष्कर्षण है। हम डेटा के एक सबसेट का उपयोग करते हैं जिसमें 0.85 से ऊपर इंटर-एनोटेटर समझौता था। डेटा असंतुलित है (अपेक्षाकृत कम तटस्थ उदाहरण), इसलिए हम सटीकता और F1 का उपयोग करके मूल्यांकन करते हैं, जहां बहु-श्रेणी F1 के लिए हम प्रति वर्ग F1 के भारित औसत की गणना करते हैं।

  • होमपेज: https://github.com/mcdm/CommitmentBank

  • डाउनलोड का आकार: 73.71 KiB

  • विभाजन:

विभाजित करना उदाहरण
'test' २५०
'train' २५०
'validation' 56
  • विशेषताएं:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

सुपर_ग्लू / कोपा

  • कॉन्फ़िग विवरण: प्रशंसनीय विकल्प की पसंद (। कोपा, Roemmele एट अल, 2011) डाटासेट एक कारण तर्क कार्य जिसमें एक प्रणाली एक आधार यह सजा और दो संभव विकल्पों दिया जाता है। सिस्टम को उस विकल्प का चयन करना चाहिए जिसका आधार के साथ अधिक प्रशंसनीय कारण संबंध हो। विकल्पों के निर्माण के लिए उपयोग की जाने वाली विधि यह सुनिश्चित करती है कि कार्य को हल करने के लिए कारण तर्क की आवश्यकता है। उदाहरण या तो वैकल्पिक संभावित कारणों या आधार वाक्य के वैकल्पिक संभावित प्रभावों से निपटते हैं, साथ ही मॉडल के लिए दो उदाहरण प्रकारों के बीच एक सरल प्रश्न को स्पष्ट करते हैं। सभी उदाहरण हस्तशिल्प हैं और ऑनलाइन ब्लॉग और फोटोग्राफी से संबंधित विश्वकोश के विषयों पर ध्यान केंद्रित करते हैं। लेखकों की सिफारिश के बाद, हम सटीकता का उपयोग करके मूल्यांकन करते हैं।

  • होमपेज: http://people.ict.usc.edu/~gordon/copa.html

  • डाउनलोड का आकार: 42.96 KiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 500
'train' 400
'validation' 100
  • विशेषताएं:
FeaturesDict({
    'choice1': Text(shape=(), dtype=tf.string),
    'choice2': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

सुपर_ग्लू / मल्टीआरसी

  • कॉन्फ़िग विवरण: मल्टी वाक्य पठन बोध डाटासेट (। MultiRC, Khashabi एट अल, 2018) एक सही / गलत सवाल-जवाब दे काम है। प्रत्येक उदाहरण में एक संदर्भ अनुच्छेद, उस अनुच्छेद के बारे में एक प्रश्न और उस प्रश्न के संभावित उत्तरों की एक सूची होती है जिसे सही या गलत के रूप में लेबल किया जाना चाहिए। प्रश्न-उत्तर (क्यूए) कई डेटासेट के साथ एक लोकप्रिय समस्या है। हम कई वांछनीय गुणों के कारण मल्टीआरसी का उपयोग करते हैं: (i) प्रत्येक प्रश्न में कई संभावित सही उत्तर हो सकते हैं, इसलिए प्रत्येक प्रश्न-उत्तर जोड़ी का मूल्यांकन अन्य जोड़े से स्वतंत्र होना चाहिए, (ii) प्रश्नों को इस तरह डिज़ाइन किया गया है कि प्रत्येक प्रश्न का उत्तर देने की आवश्यकता है कई संदर्भ वाक्यों से तथ्यों को आकर्षित करना, और (iii) प्रश्न-उत्तर जोड़ी प्रारूप स्पैन-आधारित एक्सट्रैक्टिव क्यूए की तुलना में अन्य सुपरग्लू कार्यों के एपीआई से अधिक निकटता से मेल खाता है। अनुच्छेद सात डोमेन से तैयार किए गए हैं जिनमें समाचार, कथा और ऐतिहासिक पाठ शामिल हैं।

  • होमपेज: https://cogcomp.org/multirc/

  • डाउनलोड का आकार: 1.06 MiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 9,693
'train' २७,२४३
'validation' 4,848
  • विशेषताएं:
FeaturesDict({
    'answer': Text(shape=(), dtype=tf.string),
    'idx': FeaturesDict({
        'answer': tf.int32,
        'paragraph': tf.int32,
        'question': tf.int32,
    }),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

सुपर_ग्लू/रिकॉर्ड

  • कॉन्फ़िग विवरण: (। Commonsense तर्क डेटासेट, झांग एट अल, 2018 के साथ पठन बोध) एक बहु-विकल्प क्यूए काम है। प्रत्येक उदाहरण में एक समाचार लेख और उस लेख के बारे में क्लोज़-शैली का प्रश्न होता है जिसमें एक इकाई को छुपाया जाता है। सिस्टम को प्रदान किए गए मार्ग में संभावित संस्थाओं की दी गई सूची से नकाबपोश इकाई की भविष्यवाणी करनी चाहिए, जहां एक ही इकाई को कई अलग-अलग सतह रूपों का उपयोग करके व्यक्त किया जा सकता है, जिनमें से सभी को सही माना जाता है। लेख सीएनएन और डेली मेल से लिए गए हैं। मूल कार्य के बाद, हम अधिकतम (सभी उल्लेखों पर) टोकन-स्तर F1 और सटीक मिलान (EM) के साथ मूल्यांकन करते हैं।

  • होमपेज: https://sheng-z.github.io/ReCoRD-explorer/

  • डाउनलोड का आकार: 49.36 MiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 10,000
'train' 100,730
'validation' 10,000
  • विशेषताएं:
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=tf.string)),
    'entities': Sequence(Text(shape=(), dtype=tf.string)),
    'idx': FeaturesDict({
        'passage': tf.int32,
        'query': tf.int32,
    }),
    'passage': Text(shape=(), dtype=tf.string),
    'query': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

सुपर_ग्लू / आरटीई

  • कॉन्फ़िग विवरण: स्वीकार करते हुए शाब्दिक अनुलाग (आरटीई) डेटासेट शाब्दिक अनुलाग पर वार्षिक प्रतियोगिताओं की एक श्रृंखला से आते हैं, कि कोई आधार वाक्य की भविष्यवाणी की समस्या एक दिया परिकल्पना की सजा (भी प्राकृतिक भाषा अनुमान, NLI के रूप में जाना जाता है) जरूरत पर जोर देता। RTE को पहले GLUE में शामिल किया गया था, और हम पहले के समान डेटा और प्रारूप का उपयोग करते हैं: हम RTE1 (Dagan et al।, 2006), RTE2 (Bar Haim et al।, 2006), RTE3 (Giampiccolo et al।) से डेटा मर्ज करते हैं। 2007), और RTE5 (बेंटिवोगली एट अल।, 2009)। सभी डेटासेट संयुक्त हैं और दो-श्रेणी के वर्गीकरण में परिवर्तित हो गए हैं: एंटलेमेंट और नॉट_एंटेलमेंट। GLUE के सभी कार्यों में से, RTE उन लोगों में से था, जिन्होंने GLUE के लॉन्च के समय लगभग यादृच्छिक-मौका प्रदर्शन (~ 56%) से 85% सटीकता (लियू एट अल।, 2019c) पर कूदते हुए, स्थानांतरण सीखने से सबसे अधिक लाभान्वित हुए। लेखन का समय। मानव प्रदर्शन के संबंध में आठ बिंदुओं के अंतर को देखते हुए, हालांकि, कार्य अभी तक मशीनों द्वारा हल नहीं किया गया है, और हम उम्मीद करते हैं कि शेष अंतर को बंद करना मुश्किल होगा।

  • होमपेज: https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • डाउनलोड का आकार: 733.32 KiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 3,000
'train' 2,490
'validation' 277
  • विशेषताएं:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

सुपर_ग्लू / विक

  • कॉन्फ़िग विवरण: पद-इन-प्रसंग (WIC, Pilehvar और केमाको-Collados, 2019) डाटासेट का समर्थन करता है एक शब्द के अर्थ में सजा जोड़े से अधिक द्विआधारी वर्गीकरण के रूप में बहुविकल्पी कार्य डाली। दो वाक्यों और दोनों वाक्यों में प्रकट होने वाले एक बहुपत्नी (अर्थ-अस्पष्ट) शब्द को देखते हुए, कार्य यह निर्धारित करना है कि क्या शब्द दोनों वाक्यों में समान अर्थ के साथ प्रयोग किया जाता है। वाक्य वर्डनेट (मिलर, 1995), वर्बनेट (शूलर, 2005) और विक्षनरी से लिए गए हैं। हम मूल कार्य का पालन करते हैं और सटीकता का उपयोग करके मूल्यांकन करते हैं।

  • होमपेज: https://pilehvar.github.io/wic/

  • डाउनलोड का आकार: 386.93 KiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 1,400
'train' 5,428
'validation' 638
  • विशेषताएं:
FeaturesDict({
    'end1': tf.int32,
    'end2': tf.int32,
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
    'start1': tf.int32,
    'start2': tf.int32,
    'word': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

सुपर_ग्लू/डब्ल्यूएससी

  • कॉन्फ़िग विवरण: Winograd स्कीमा चैलेंज (। WSC, लेवेस्क एट अल, 2012) एक को पढ़ना शामिल काम है, जिसमें एक प्रणाली एक सर्वनाम के साथ एक वाक्य पढ़ सकते हैं और विकल्प की एक सूची से उस सर्वनाम की दिग्दर्शन का चयन करना होगा है। इस कार्य की कठिनाई को देखते हुए और हेडरूम अभी भी बचा हुआ है, हमने WSC को SuperGLUE में शामिल किया है और डेटासेट को उसके मूल रूप में पुनर्गठित किया है। कार्य को एक द्विआधारी वर्गीकरण समस्या के रूप में डाला गया है, एन-बहुविकल्पी के विपरीत, एक वाक्य के भीतर कोरफेरेंस लिंक को समझने की मॉडल की क्षमता को अलग करने के लिए, कई अन्य रणनीतियों के विपरीत जो कई विकल्प स्थितियों में खेल में आ सकती हैं। इसे ध्यान में रखते हुए, हम सत्यापन सेट में ६५% नकारात्मक बहुमत वर्ग के साथ एक विभाजन बनाते हैं, जो छिपे हुए परीक्षण सेट के वितरण को दर्शाता है, और प्रशिक्षण सेट में ५२% नकारात्मक वर्ग। प्रशिक्षण और सत्यापन के उदाहरण मूल विनोग्रैड स्कीमा डेटासेट (लेवेस्क एट अल।, 2012) से लिए गए हैं, साथ ही साथ संबद्ध संगठन कॉमन्सेंस रीजनिंग द्वारा वितरित किए गए हैं। परीक्षण के उदाहरण काल्पनिक पुस्तकों से लिए गए हैं और मूल डेटासेट के लेखकों द्वारा हमारे साथ साझा किए गए हैं। पहले, WSC के एक संस्करण को GLUE में शामिल NLI के रूप में पुनर्गठित किया गया, जिसे WNLI के रूप में जाना जाता है। WNLI पर कोई महत्वपूर्ण प्रगति नहीं हुई थी, जिसमें कई सबमिशन केवल बहुसंख्यक वर्ग की भविष्यवाणियों को प्रस्तुत करने का विकल्प चुनते थे। एक प्रतिकूल ट्रेन/देव विभाजन के कारण WNLI को विशेष रूप से कठिन बना दिया गया था: प्रशिक्षण सेट में दिखाई देने वाले परिसर वाक्य कभी-कभी एक अलग परिकल्पना और फ़्लिप लेबल के साथ विकास सेट में दिखाई देते थे। यदि कोई प्रणाली सार्थक सामान्यीकरण के बिना प्रशिक्षण सेट को याद कर लेती है, जो कि प्रशिक्षण सेट के छोटे आकार के कारण आसान था, तो यह विकास सेट पर बहुत कम मौके का प्रदर्शन कर सकता है। हम यह सुनिश्चित करके WSC के SuperGLUE संस्करण में इस प्रतिकूल डिज़ाइन को हटाते हैं कि प्रशिक्षण, सत्यापन और परीक्षण सेट के बीच कोई वाक्य साझा नहीं किया जाता है।

हालाँकि, सत्यापन और परीक्षण सेट अलग-अलग डोमेन से आते हैं, सत्यापन सेट में अस्पष्ट उदाहरण होते हैं जैसे कि एक गैर-संज्ञा वाक्यांश शब्द को बदलने से वाक्य में कोरफेरेंस निर्भरता बदल जाएगी। परीक्षण सेट में केवल अधिक सरल उदाहरण होते हैं, जिसमें उच्च संख्या में संज्ञा वाक्यांश (और इस प्रकार मॉडल के लिए अधिक विकल्प) होते हैं, लेकिन कम या कोई अस्पष्टता नहीं होती है।

विभाजित करना उदाहरण
'test' १४६
'train' 554
'validation' १०४
  • विशेषताएं:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.fixed

  • कॉन्फ़िग विवरण: Winograd स्कीमा चैलेंज (। WSC, लेवेस्क एट अल, 2012) एक को पढ़ना शामिल काम है, जिसमें एक प्रणाली एक सर्वनाम के साथ एक वाक्य पढ़ सकते हैं और विकल्प की एक सूची से उस सर्वनाम की दिग्दर्शन का चयन करना होगा है। इस कार्य की कठिनाई को देखते हुए और हेडरूम अभी भी बचा हुआ है, हमने WSC को SuperGLUE में शामिल किया है और डेटासेट को उसके मूल रूप में पुनर्गठित किया है। कार्य को एक द्विआधारी वर्गीकरण समस्या के रूप में डाला गया है, एन-बहुविकल्पी के विपरीत, एक वाक्य के भीतर कोरफेरेंस लिंक को समझने की मॉडल की क्षमता को अलग करने के लिए, कई अन्य रणनीतियों के विपरीत जो कई विकल्प स्थितियों में खेल में आ सकती हैं। इसे ध्यान में रखते हुए, हम सत्यापन सेट में ६५% नकारात्मक बहुमत वर्ग के साथ एक विभाजन बनाते हैं, जो छिपे हुए परीक्षण सेट के वितरण को दर्शाता है, और प्रशिक्षण सेट में ५२% नकारात्मक वर्ग। प्रशिक्षण और सत्यापन उदाहरण मूल विनोग्राद स्कीमा डेटासेट (लेवेस्क एट अल।, 2012) से लिए गए हैं, साथ ही साथ संबद्ध संगठन कॉमन्सेंस रीजनिंग द्वारा वितरित किए गए हैं। परीक्षण के उदाहरण काल्पनिक पुस्तकों से लिए गए हैं और मूल डेटासेट के लेखकों द्वारा हमारे साथ साझा किए गए हैं। पहले, WSC के एक संस्करण को GLUE में शामिल NLI के रूप में पुनर्गठित किया गया, जिसे WNLI के रूप में जाना जाता है। WNLI पर कोई महत्वपूर्ण प्रगति नहीं हुई थी, जिसमें कई सबमिशन केवल बहुसंख्यक वर्ग की भविष्यवाणियों को प्रस्तुत करने का विकल्प चुनते थे। एक प्रतिकूल ट्रेन/देव विभाजन के कारण WNLI को विशेष रूप से कठिन बना दिया गया था: प्रशिक्षण सेट में दिखाई देने वाले परिसर वाक्य कभी-कभी एक अलग परिकल्पना और फ़्लिप लेबल के साथ विकास सेट में दिखाई देते थे। यदि कोई प्रणाली सार्थक सामान्यीकरण के बिना प्रशिक्षण सेट को याद कर लेती है, जो कि प्रशिक्षण सेट के छोटे आकार के कारण आसान था, तो यह विकास सेट पर बहुत कम मौके का प्रदर्शन कर सकता है। हम यह सुनिश्चित करके WSC के SuperGLUE संस्करण में इस प्रतिकूल डिज़ाइन को हटाते हैं कि प्रशिक्षण, सत्यापन और परीक्षण सेट के बीच कोई वाक्य साझा नहीं किया जाता है।

हालाँकि, सत्यापन और परीक्षण सेट अलग-अलग डोमेन से आते हैं, सत्यापन सेट में अस्पष्ट उदाहरण होते हैं जैसे कि एक गैर-संज्ञा वाक्यांश शब्द को बदलने से वाक्य में कोरफेरेंस निर्भरता बदल जाएगी। परीक्षण सेट में केवल अधिक सरल उदाहरण होते हैं, जिसमें उच्च संख्या में संज्ञा वाक्यांश (और इस प्रकार मॉडल के लिए अधिक विकल्प) होते हैं, लेकिन कम या कोई अस्पष्टता नहीं होती है।

यह संस्करण उन मुद्दों को ठीक करता है जहां स्पैन वास्तव में टेक्स्ट के सबस्ट्रिंग नहीं हैं।

विभाजित करना उदाहरण
'test' १४६
'train' 554
'validation' १०४
  • विशेषताएं:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axb

  • कॉन्फ़िग विवरण: एक विशेषज्ञ-निर्माण, नैदानिक डाटासेट कि स्वचालित रूप से भाषाई, commonsense, और दुनिया ज्ञान की एक विस्तृत श्रृंखला के लिए मॉडल का परीक्षण करती है। इस व्यापक-कवरेज डायग्नोस्टिक में प्रत्येक उदाहरण एक वाक्य जोड़ी है जिसे तीन-तरफा प्रवेश संबंध (एंटेलमेंट, तटस्थ, या विरोधाभास) के साथ लेबल किया गया है और लेबल के साथ टैग किया गया है जो दो वाक्यों के बीच संबंधों को दर्शाने वाली घटनाओं को इंगित करता है। GLUE लीडरबोर्ड में सबमिशन के लिए डायग्नोस्टिक डेटासेट पर सबमिशन के मल्टीएनएलआई क्लासिफायर से भविष्यवाणियों को शामिल करना आवश्यक है, और परिणामों का विश्लेषण मुख्य लीडरबोर्ड के साथ दिखाया गया था। चूंकि यह व्यापक-कवरेज निदान कार्य शीर्ष मॉडलों के लिए कठिन साबित हुआ है, इसलिए हम इसे SuperGLUE में बनाए रखते हैं। हालांकि, चूंकि मल्टीएनएलआई सुपरग्लू का हिस्सा नहीं है, इसलिए हम विरोधाभास और तटस्थ को एक एकल नोट_एंटेलमेंट लेबल में समेटते हैं, और अनुरोध करते हैं कि सबमिशन में आरटीई कार्य के लिए उपयोग किए गए मॉडल से परिणामी सेट पर पूर्वानुमान शामिल हों।

  • होमपेज: https://gluebenchmark.com/diagnostics

  • डाउनलोड का आकार: 33.15 KiB

  • विभाजन:

विभाजित करना उदाहरण
'test' १,१०४
  • विशेषताएं:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

सुपर_ग्लू / axg

  • कॉन्फ़िग विवरण: Winogender coreference संकल्प प्रणालियों में लिंग भेद को मापने के लिए बनाया गया है। हम विविध प्राकृतिक भाषा अनुमान संग्रह (डीएनसी; पोलियाक एट अल।, 2018) संस्करण का उपयोग करते हैं जो विनोजेन्डर को एक पाठ्य प्रवेश कार्य के रूप में प्रस्तुत करता है। प्रत्येक उदाहरण में पुरुष या महिला सर्वनाम के साथ एक आधार वाक्य और सर्वनाम के संभावित पूर्ववृत्त देने वाली एक परिकल्पना शामिल है। उदाहरण न्यूनतम जोड़े में होते हैं, जहां एक उदाहरण और उसकी जोड़ी के बीच एकमात्र अंतर आधार में सर्वनाम का लिंग है। विनोगेंडर पर प्रदर्शन सटीकता और लिंग समानता स्कोर दोनों के साथ मापा जाता है: न्यूनतम जोड़े का प्रतिशत जिसके लिए पूर्वानुमान समान हैं। हम ध्यान दें कि एक प्रणाली सभी उदाहरणों के लिए एक ही वर्ग का अनुमान लगाकर एक पूर्ण लिंग समानता स्कोर प्राप्त कर सकती है, इसलिए उच्च सटीकता के साथ उच्च लिंग समानता स्कोर अर्थहीन है। लिंग पूर्वाग्रह के नैदानिक ​​परीक्षण के रूप में, हम स्कीमा को उच्च सकारात्मक भविष्य कहनेवाला मूल्य और कम नकारात्मक भविष्य कहनेवाला मूल्य के रूप में देखते हैं; अर्थात्, वे एक प्रणाली में लिंग पूर्वाग्रह की उपस्थिति का प्रदर्शन कर सकते हैं, लेकिन इसकी अनुपस्थिति को साबित नहीं कर सकते।

  • होमपेज: https://github.com/rudinger/winogender-schemas

  • डाउनलोड का आकार: 10.17 KiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 356
  • विशेषताएं:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.