Süper yapıştırıcı

  • Açıklama :

SuperGLUE ( https://super.gluebenchmark.com/ ), yeni bir dizi daha zor dil anlama görevleri, geliştirilmiş kaynaklar ve yeni bir genel lider panosu ile GLUE'dan sonra tasarlanmış yeni bir kıyaslamadır.

super_glue/boolq (varsayılan yapılandırma)

  • Yapılandırma açıklaması : BoolQ (Boolean Questions, Clark ve diğerleri, 2019a), her örneğin kısa bir pasajdan ve pasaj hakkında bir evet/hayır sorusundan oluştuğu bir QA görevidir. Sorular, Google arama motorunun kullanıcıları tarafından isimsiz olarak ve istenmeden sağlanır ve daha sonra, cevabı içeren bir Wikipedia makalesinden bir paragrafla eşleştirilir. Orijinal çalışmayı takiben doğrulukla değerlendiririz.

  • Ana sayfa : https://github.com/google-research-datasets/boolean-questions

  • İndirme boyutu : 3.93 MiB

  • Bölmeler :

Bölmek Örnekler
'test' 3.245
'train' 9,427
'validation' 3.270
  • Özellik yapısı :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'passage': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
idx tensör tf.int32
etiket sınıf etiketi tf.int64
geçit Metin tf.string
soru Metin tf.string
  • alıntı :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/cb

  • Yapılandırma açıklaması : CommitmentBank (De Marneffe ve diğerleri, 2019), en az bir cümlenin gömülü bir yan tümce içerdiği bir kısa metinler bütünüdür. Bu iliştirilmiş tümcelerin her biri, metni yazan kişinin tümcenin doğruluğuna bağlı olmasını beklediğimiz dereceyle açıklanır. Sonuçta ortaya çıkan görev, Wall Street Journal'dan, British National Corpus'tan kurgudan ve Switchboard'dan alınan örnekler üzerinde üç sınıflı metinsel gereklilik olarak çerçevelendi. Her örnek, gömülü bir cümleyi içeren bir öncülden oluşur ve karşılık gelen hipotez, bu cümlenin çıkarılmasıdır. 0,85'in üzerinde açıklayıcılar arası anlaşmaya sahip verilerin bir alt kümesini kullanıyoruz. Veriler dengesizdir (nispeten daha az nötr örnek), bu nedenle doğruluk ve F1'i kullanarak değerlendirme yaparız, burada çok sınıflı F1 için sınıf başına F1'in ağırlıksız ortalamasını hesaplarız.

  • Ana sayfa : https://github.com/mcdm/CommitmentBank

  • İndirme boyutu : 73.71 KiB

  • Bölmeler :

Bölmek Örnekler
'test' 250
'train' 250
'validation' 56
  • Özellik yapısı :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
hipotez Metin tf.string
idx tensör tf.int32
etiket sınıf etiketi tf.int64
Öncül Metin tf.string
  • alıntı :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/copa

  • Yapılandırma açıklaması : The Choice Of Plausible Alternatives (COPA, Roemmele ve diğerleri, 2011) veri kümesi, bir sisteme bir öncül cümle ve iki olası alternatifin verildiği nedensel bir akıl yürütme görevidir. Sistem, öncül ile daha makul nedensel ilişkiye sahip olan alternatifi seçmelidir. Alternatiflerin oluşturulması için kullanılan yöntem, görevin çözülmesi için nedensel akıl yürütmeyi gerektirmesini sağlar. Örnekler, model için iki örnek türü arasında belirsizliği gideren basit bir soru eşliğinde, öncül cümlenin alternatif olası nedenleri veya alternatif olası etkileri ile ilgilenir. Tüm örnekler el yapımıdır ve çevrimiçi bloglardan ve fotoğrafçılıkla ilgili bir ansiklopediden konulara odaklanır. Yazarların tavsiyelerini takiben doğruluk kullanarak değerlendiririz.

  • Ana sayfa : http://people.ict.usc.edu/~gordon/copa.html

  • İndirme boyutu : 42.96 KiB

  • Bölmeler :

Bölmek Örnekler
'test' 500
'train' 400
'validation' 100
  • Özellik yapısı :
FeaturesDict({
    'choice1': Text(shape=(), dtype=tf.string),
    'choice2': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
seçim1 Metin tf.string
seçim2 Metin tf.string
idx tensör tf.int32
etiket sınıf etiketi tf.int64
Öncül Metin tf.string
soru Metin tf.string
  • alıntı :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/multirc

  • Yapılandırma açıklaması : Çok Cümleli Okuduğunu Anlama veri kümesi (MultiRC, Khashabi ve diğerleri, 2018), doğru/yanlış soru yanıtlama görevidir. Her örnek, bir bağlam paragrafından, o paragrafla ilgili bir sorudan ve bu soruya doğru veya yanlış olarak etiketlenmesi gereken olası yanıtların bir listesinden oluşur. Soru cevaplama (QA), birçok veri setinde popüler bir problemdir. Çok sayıda arzu edilen özellik nedeniyle MultiRC kullanıyoruz: (i) her sorunun birden fazla olası doğru cevabı olabilir, bu nedenle her soru-cevap çifti diğer çiftlerden bağımsız olarak değerlendirilmelidir, (ii) sorular, her bir soruyu cevaplamak için gerekli olacak şekilde tasarlanmıştır. gerçekleri birden çok bağlam cümlesinden çizme ve (iii) soru-cevap çifti formatı, yayılma tabanlı ekstraktif KG'den daha fazla diğer SuperGLUE görevlerinin API'siyle daha yakından eşleşir. Paragraflar, haber, kurgu ve tarihi metin dahil olmak üzere yedi alandan alınmıştır.

  • Ana sayfa : https://cogcomp.org/multirc/

  • İndirme boyutu : 1.06 MiB

  • Bölmeler :

Bölmek Örnekler
'test' 9,693
'train' 27.243
'validation' 4.848
  • Özellik yapısı :
FeaturesDict({
    'answer': Text(shape=(), dtype=tf.string),
    'idx': FeaturesDict({
        'answer': tf.int32,
        'paragraph': tf.int32,
        'question': tf.int32,
    }),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
Cevap Metin tf.string
idx ÖzelliklerDict
idx/yanıt tensör tf.int32
idx/paragraf tensör tf.int32
idx/soru tensör tf.int32
etiket sınıf etiketi tf.int64
paragraf Metin tf.string
soru Metin tf.string
  • alıntı :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/kayıt

  • Yapılandırma açıklaması : (Commonsense Reasoning Veri Kümesi ile Okuduğunu Anlama, Zhang ve diğerleri, 2018) çoktan seçmeli bir KG görevidir. Her örnek, bir haber makalesinden ve bir varlığın maskelendiği makale hakkında Cloze tarzı bir sorudan oluşur. Sistem, aynı varlığın tümü doğru kabul edilen birden fazla farklı yüzey formu kullanılarak ifade edilebildiği, sağlanan pasajdaki belirli bir olası varlıklar listesinden maskelenen varlığı tahmin etmelidir. Makaleler CNN ve Daily Mail'den alınmıştır. Orijinal çalışmayı takiben, maksimum (tüm bahsetmeler üzerinde) belirteç düzeyinde F1 ve tam eşleşme (EM) ile değerlendiririz.

  • Ana sayfa : https://sheng-z.github.io/ReCoRD-explorer/

  • İndirme boyutu : 49.36 MiB

  • Bölmeler :

Bölmek Örnekler
'test' 10.000
'train' 100.730
'validation' 10.000
  • Özellik yapısı :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=tf.string)),
    'entities': Sequence(Text(shape=(), dtype=tf.string)),
    'idx': FeaturesDict({
        'passage': tf.int32,
        'query': tf.int32,
    }),
    'passage': Text(shape=(), dtype=tf.string),
    'query': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
Yanıtlar Sıra(Metin) (Hiçbiri,) tf.string
varlıklar Sıra(Metin) (Hiçbiri,) tf.string
idx ÖzelliklerDict
idx/geçiş tensör tf.int32
idx/sorgu tensör tf.int32
geçit Metin tf.string
sorgu Metin tf.string
  • alıntı :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/rte

  • Konfigürasyon açıklaması : Recognizing Textual Entailment (RTE) veri kümeleri, metinsel gereklilik üzerine bir dizi yıllık yarışmadan gelir; belirli bir öncül cümlenin belirli bir hipotez cümlesini (doğal dil çıkarımı, NLI olarak da bilinir) içerip içermediğini tahmin etme sorunu. RTE daha önce GLUE'ya dahil edilmişti ve öncekiyle aynı verileri ve formatı kullanıyoruz: RTE1'den (Dagan ve diğerleri, 2006), RTE2'den (Bar Haim ve diğerleri, 2006), RTE3'ten (Giampiccolo ve diğerleri., 2007) ve RTE5 (Bentivogli ve diğerleri, 2009). Tüm veri kümeleri birleştirilir ve iki sınıflı sınıflandırmaya dönüştürülür: entailment ve not_entailment. Tüm GLUE görevleri arasında, RTE, GLUE'nun piyasaya sürüldüğü sırada rastgele şansa yakın performanstan (~%56) %85 doğruluğa sıçrayarak transfer öğrenmeden en çok yararlananlar arasındaydı (Liu ve diğerleri, 2019c). yazma zamanı. Bununla birlikte, insan performansına ilişkin sekiz puanlık boşluk göz önüne alındığında, görev henüz makineler tarafından çözülmedi ve kalan boşluğu kapatmanın zor olmasını bekliyoruz.

  • Ana sayfa : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • İndirme boyutu : 733.32 KiB

  • Bölmeler :

Bölmek Örnekler
'test' 3.000
'train' 2.490
'validation' 277
  • Özellik yapısı :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
hipotez Metin tf.string
idx tensör tf.int32
etiket sınıf etiketi tf.int64
Öncül Metin tf.string
  • alıntı :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wic

  • Yapılandırma açıklaması : Word-in-Context (WiC, Pilehvar ve Camacho-Collados, 2019) veri seti, cümle çiftleri üzerinde ikili sınıflandırma olarak kullanılan bir kelime anlamı belirsizleştirme görevini destekler. İki cümle ve her iki cümlede de geçen çokanlamlı (anlamlı-belirsiz) bir kelime verildiğinde, görev kelimenin her iki cümlede de aynı anlamda kullanılıp kullanılmadığını belirlemektir. Cümleler WordNet (Miller, 1995), VerbNet (Schuler, 2005) ve Vikisözlük'ten alınmıştır. Orijinal çalışmayı takip eder ve doğruluk kullanarak değerlendiririz.

  • Ana sayfa : https://pilehvar.github.io/wic/

  • İndirme boyutu : 386.93 KiB

  • Bölmeler :

Bölmek Örnekler
'test' 1.400
'train' 5.428
'validation' 638
  • Özellik yapısı :
FeaturesDict({
    'end1': tf.int32,
    'end2': tf.int32,
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
    'start1': tf.int32,
    'start2': tf.int32,
    'word': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
son1 tensör tf.int32
son2 tensör tf.int32
idx tensör tf.int32
etiket sınıf etiketi tf.int64
cümle1 Metin tf.string
cümle2 Metin tf.string
başlangıç1 tensör tf.int32
başlangıç2 tensör tf.int32
kelime Metin tf.string
  • alıntı :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc

  • Yapılandırma açıklaması : Winograd Schema Challenge (WSC, Levesque ve diğerleri, 2012), bir sistemin zamirli bir cümleyi okuması ve bu zamirin göndergesini bir seçenekler listesinden seçmesi gereken bir okuduğunu anlama görevidir. Bu görevin zorluğu ve hala kalan boşluk göz önüne alındığında, WSC'yi SuperGLUE'ya dahil ettik ve veri setini kendi referans formuna dönüştürdük. Görev, modelin çoktan seçmeli koşullarda devreye girebilecek diğer çeşitli stratejilerin aksine, bir cümle içindeki referans bağlantılarını anlama yeteneğini izole etmek için N-çoklu seçimin aksine bir ikili sınıflandırma problemi olarak belirlenir. Bunu akılda tutarak, doğrulama setinde gizli test setinin dağılımını yansıtan %65 negatif çoğunluk sınıfı ve eğitim setinde %52 negatif sınıf ile bir bölünme oluşturuyoruz. Eğitim ve doğrulama örnekleri, orijinal Winograd Schema veri setinden (Levesque ve diğerleri, 2012) ve bağlı kuruluş Commonsense Reasoning tarafından dağıtılanlardan alınmıştır. Test örnekleri kurgu kitaplarından alınmıştır ve orijinal veri setinin yazarları tarafından bizimle paylaşılmıştır. Daha önce, WSC'nin bir sürümü, WNLI olarak bilinen, GLUE'da bulunan NLI olarak yeniden biçimlendirilmiştir. WNLI'de önemli bir ilerleme kaydedilmedi ve birçok başvuru yalnızca çoğunluk sınıfı tahminlerini göndermeyi seçti. WNLI, çekişmeli bir tren/geliştirme ayrımı nedeniyle özellikle zorlaştı: Eğitim setinde görünen öncül cümleler, bazen geliştirme setinde farklı bir hipotez ve ters çevrilmiş bir etiketle ortaya çıktı. Eğer bir sistem eğitim setini anlamlı bir genelleme yapmadan ezberlerse, ki bu eğitim setinin küçük olması nedeniyle kolaydı, geliştirme setinde şansın çok altında performans gösterebilirdi. Eğitim, doğrulama ve test setleri arasında hiçbir cümlenin paylaşılmamasını sağlayarak WSC'nin SuperGLUE versiyonundaki bu çekişmeli tasarımı kaldırıyoruz.

Bununla birlikte, doğrulama ve test kümeleri farklı alanlardan gelir, doğrulama kümesi belirsiz örneklerden oluşur, öyle ki isim olmayan bir kelime öbeğinin değiştirilmesi cümledeki bağıntı bağımlılıklarını değiştirir. Test seti, yalnızca çok sayıda isim öbeği (ve dolayısıyla model için daha fazla seçenek) içeren, ancak düşük veya hiç belirsizlik içermeyen daha basit örneklerden oluşur.

Bölmek Örnekler
'test' 146
'train' 554
'validation' 104
  • Özellik yapısı :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
idx tensör tf.int32
etiket sınıf etiketi tf.int64
span1_index tensör tf.int32
span1_text Metin tf.string
span2_index tensör tf.int32
span2_text Metin tf.string
Metin Metin tf.string
  • alıntı :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.düzeltildi

  • Yapılandırma açıklaması : Winograd Schema Challenge (WSC, Levesque ve diğerleri, 2012), bir sistemin zamirli bir cümleyi okuması ve bu zamirin göndergesini bir seçenekler listesinden seçmesi gereken bir okuduğunu anlama görevidir. Bu görevin zorluğu ve hala kalan boşluk göz önüne alındığında, WSC'yi SuperGLUE'ya dahil ettik ve veri setini kendi referans formuna dönüştürdük. Görev, modelin çoktan seçmeli koşullarda devreye girebilecek diğer çeşitli stratejilerin aksine, bir cümle içindeki referans bağlantılarını anlama yeteneğini izole etmek için N-çoklu seçimin aksine bir ikili sınıflandırma problemi olarak belirlenir. Bunu akılda tutarak, doğrulama setinde gizli test setinin dağılımını yansıtan %65 negatif çoğunluk sınıfı ve eğitim setinde %52 negatif sınıf ile bir bölünme oluşturuyoruz. Eğitim ve doğrulama örnekleri, orijinal Winograd Schema veri setinden (Levesque ve diğerleri, 2012) ve bağlı kuruluş Commonsense Reasoning tarafından dağıtılanlardan alınmıştır. Test örnekleri kurgu kitaplarından alınmıştır ve orijinal veri setinin yazarları tarafından bizimle paylaşılmıştır. Daha önce, WSC'nin bir sürümü, WNLI olarak bilinen, GLUE'da bulunan NLI olarak yeniden biçimlendirilmiştir. WNLI'de önemli bir ilerleme kaydedilmedi ve birçok başvuru yalnızca çoğunluk sınıfı tahminlerini göndermeyi seçti. WNLI, çekişmeli bir tren/geliştirme ayrımı nedeniyle özellikle zorlaştı: Eğitim setinde görünen öncül cümleler, bazen geliştirme setinde farklı bir hipotez ve ters çevrilmiş bir etiketle ortaya çıktı. Eğer bir sistem eğitim setini anlamlı bir genelleme yapmadan ezberlerse, ki bu eğitim setinin küçük olması nedeniyle kolaydı, geliştirme setinde şansın çok altında performans gösterebilirdi. Eğitim, doğrulama ve test setleri arasında hiçbir cümlenin paylaşılmamasını sağlayarak WSC'nin SuperGLUE versiyonundaki bu çekişmeli tasarımı kaldırıyoruz.

Bununla birlikte, doğrulama ve test kümeleri farklı alanlardan gelir, doğrulama kümesi belirsiz örneklerden oluşur, öyle ki isim olmayan bir kelime öbeğinin değiştirilmesi cümledeki bağıntı bağımlılıklarını değiştirir. Test seti, yalnızca çok sayıda isim öbeği (ve dolayısıyla model için daha fazla seçenek) içeren, ancak düşük veya hiç belirsizlik içermeyen daha basit örneklerden oluşur.

Bu sürüm, yayılmaların aslında metnin alt dizeleri olmadığı sorunları giderir.

Bölmek Örnekler
'test' 146
'train' 554
'validation' 104
  • Özellik yapısı :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
idx tensör tf.int32
etiket sınıf etiketi tf.int64
span1_index tensör tf.int32
span1_text Metin tf.string
span2_index tensör tf.int32
span2_text Metin tf.string
Metin Metin tf.string
  • alıntı :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axb

  • Yapılandırma açıklaması : Geniş bir dilbilimsel, sağduyulu ve dünya bilgisi yelpazesi için modelleri otomatik olarak test eden, uzman tarafından oluşturulmuş bir tanı veri kümesi. Bu geniş kapsamlı tanılamadaki her örnek, üç yönlü bir gereklilik ilişkisi (gereklilik, tarafsızlık veya çelişki) ile etiketlenmiş ve iki cümle arasındaki ilişkiyi karakterize eden fenomenleri gösteren etiketlerle etiketlenmiş bir cümle çiftidir. GLUE lider panosuna yapılan gönderimlerin, gönderimin MultiNLI sınıflandırıcısından tanılama veri kümesindeki tahminleri içermesi gerekir ve sonuçların analizleri ana lider panosunun yanında gösterildi. Bu geniş kapsamlı tanılama görevi en iyi modeller için zor olduğu için SuperGLUE'da tutuyoruz. Bununla birlikte, MultiNLI SuperGLUE'nun bir parçası olmadığı için, çelişkiyi ve tarafsızlığı tek bir not_entailment etiketine sığdırırız ve gönderimlerin, RTE görevi için kullanılan modelden elde edilen kümeye ilişkin tahminleri içermesini isteriz.

  • Ana sayfa : https://gluebenchmark.com/diagnostics

  • İndirme boyutu : 33.15 KiB

  • Bölmeler :

Bölmek Örnekler
'test' 1,104
  • Özellik yapısı :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
idx tensör tf.int32
etiket sınıf etiketi tf.int64
cümle1 Metin tf.string
cümle2 Metin tf.string
  • alıntı :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axg

  • Yapılandırma açıklaması : Winogender, coreference çözünürlük sistemlerinde cinsiyet yanlılığını ölçmek için tasarlanmıştır. Winogender'ı metinsel bir gereklilik görevi olarak kullanan Diverse Natural Language Inference Collection (DNC; Poliak ve diğerleri, 2018) sürümünü kullanıyoruz. Her örnek, bir erkek veya dişi zamir içeren bir öncül tümceden ve zamirin olası bir önceliğini veren bir hipotezden oluşur. Örnekler, bir örnek ile onun çifti arasındaki tek farkın öncüldeki zamirin cinsiyeti olduğu minimal çiftler halinde ortaya çıkar. Winogender'daki performans, hem doğruluk hem de cinsiyet parite puanı ile ölçülür: tahminlerin aynı olduğu minimum çiftlerin yüzdesi. Bir sistemin tüm örnekler için aynı sınıfı tahmin ederek önemsiz bir şekilde mükemmel bir cinsiyet eşitliği puanı elde edebileceğini not ediyoruz, bu nedenle yüksek bir cinsiyet eşitliği puanı, yüksek doğrulukla birlikte olmadığı sürece anlamsızdır. Cinsiyet yanlılığının tanısal bir testi olarak, şemaları yüksek pozitif tahmin değerine ve düşük negatif tahmin değerine sahip olarak görüyoruz; yani, bir sistemde toplumsal cinsiyet yanlılığının varlığını gösterebilirler, ancak yokluğunu kanıtlayamazlar.

  • Ana sayfa : https://github.com/rudinger/winogender-schemas

  • İndirme boyutu : 10.17 KiB

  • Bölmeler :

Bölmek Örnekler
'test' 356
  • Özellik yapısı :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
hipotez Metin tf.string
idx tensör tf.int32
etiket sınıf etiketi tf.int64
Öncül Metin tf.string
  • alıntı :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.