Süper yapıştırıcı

  • Açıklama :

SuperGLUE ( https://super.gluebenchmark.com/ ), yeni bir dizi daha zor dil anlama görevi, iyileştirilmiş kaynaklar ve yeni bir genel skor tablosu ile GLUE'den sonra şekillendirilmiş yeni bir kıyaslamadır.

super_glue/boolq (varsayılan yapılandırma)

  • Yapılandırma açıklaması : BoolQ (Boolean Questions, Clark ve diğerleri, 2019a), her örneğin kısa bir pasajdan ve pasajla ilgili bir evet/hayır sorusundan oluştuğu bir KG görevidir. Sorular, Google arama motorunun kullanıcıları tarafından istenmeden ve anonim olarak sağlanır ve daha sonra, yanıtı içeren bir Wikipedia makalesinden bir paragrafla eşleştirilir. Orijinal çalışmayı takiben, doğrulukla değerlendiririz.

  • Ana Sayfa : https://github.com/google-research-datasets/boolean-questions

  • İndirme boyutu : 3.93 MiB

  • Veri kümesi boyutu : 10.75 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'test' 3.245
'train' 9.427
'validation' 3.270
  • Özellik yapısı :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'passage': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
idx tensör int32
etiket SınıfEtiketi int64
geçit Metin sicim
soru Metin sicim
  • Alıntı :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/cb

  • Yapılandırma açıklaması : Taahhüt Bankası (De Marneffe ve diğerleri, 2019), en az bir cümlenin gömülü bir cümle içerdiği kısa metinlerden oluşan bir külliyattır. Bu gömülü tümcelerin her biri, metni yazan kişinin bu maddenin doğruluğuna ne ölçüde bağlı olduğunu beklediğimiz dereceyle açıklanmıştır. Ortaya çıkan görev, Wall Street Journal'dan alınan örnekler, British National Corpus'tan kurgu ve Switchboard'dan alınan örnekler üzerinde üç sınıf metinsel gereklilik olarak çerçevelendi. Her örnek, gömülü bir yan tümce içeren bir öncülden oluşur ve karşılık gelen hipotez, bu yan tümcenin çıkarılmasıdır. 0.85'in üzerinde yorumlayıcılar arası anlaşmaya sahip olan verilerin bir alt kümesini kullanıyoruz. Veriler dengesizdir (nispeten daha az nötr örnek), bu nedenle, çok sınıflı F1 için sınıf başına F1'in ağırlıksız ortalamasını hesapladığımız F1 ve doğruluğu kullanarak değerlendiririz.

  • Ana Sayfa : https://github.com/mcdm/CommitmentBank

  • İndirme boyutu : 73.71 KiB

  • Veri kümesi boyutu : 229.28 KiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'test' 250
'train' 250
'validation' 56
  • Özellik yapısı :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
hipotez Metin sicim
idx tensör int32
etiket SınıfEtiketi int64
Öncül Metin sicim
  • Alıntı :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/kopa

  • Yapılandırma açıklaması : Makul Alternatiflerin Seçimi (COPA, Roemmele ve diğerleri, 2011) veri kümesi, bir sisteme bir öncül cümle ve iki olası alternatifin verildiği nedensel bir akıl yürütme görevidir. Sistem, öncül ile daha makul nedensel ilişkiye sahip olan alternatifi seçmelidir. Alternatiflerin oluşturulması için kullanılan yöntem, görevin çözülmesi için nedensel muhakeme gerektirmesini sağlar. Örnekler, model için iki örnek türü arasındaki belirsizliği ortadan kaldıran basit bir soruyla birlikte, öncül cümlenin alternatif olası nedenlerini veya alternatif olası etkilerini ele alır. Tüm örnekler el yapımıdır ve çevrimiçi bloglardan ve fotoğrafçılıkla ilgili bir ansiklopediden alınan konulara odaklanır. Yazarların tavsiyelerini takiben doğruluk kullanarak değerlendiriyoruz.

  • Ana sayfa : http://people.ict.usc.edu/~gordon/copa.html

  • İndirme boyutu : 42.96 KiB

  • Veri kümesi boyutu : 196.00 KiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'test' 500
'train' 400
'validation' 100
  • Özellik yapısı :
FeaturesDict({
    'choice1': Text(shape=(), dtype=string),
    'choice2': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
seçim1 Metin sicim
seçim2 Metin sicim
idx tensör int32
etiket SınıfEtiketi int64
Öncül Metin sicim
soru Metin sicim
  • Alıntı :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/çoklu

  • Yapılandırma açıklaması : Çok Cümle Okuduğunu Anlama veri kümesi (MultiRC, Khashabi ve diğerleri, 2018), doğru/yanlış soru cevaplama görevidir. Her örnek, bir bağlam paragrafından, o paragrafla ilgili bir sorudan ve bu soruya doğru veya yanlış olarak etiketlenmesi gereken olası cevapların bir listesinden oluşur. Soru yanıtlama (QA), birçok veri kümesinde popüler bir sorundur. Çok sayıda arzu edilen özellik nedeniyle MultiRC kullanıyoruz: (i) her sorunun birden fazla olası doğru cevabı olabilir, bu nedenle her soru-cevap çifti diğer çiftlerden bağımsız olarak değerlendirilmelidir, (ii) sorular, her soruyu cevaplamak için gerekli olacak şekilde tasarlanmıştır. çoklu bağlam cümlelerinden gerçekleri çizme ve (iii) soru-cevap çifti formatı, diğer SuperGLUE görevlerinin API'si ile yayılma tabanlı çıkarımsal QA'nın yaptığından daha yakından eşleşir. Paragraflar, haberler, kurgu ve tarihsel metin dahil olmak üzere yedi alandan alınmıştır.

  • Ana Sayfa : https://cogcomp.org/multirc/

  • İndirme boyutu : 1.06 MiB

  • Veri kümesi boyutu : 70.39 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'test' 9.693
'train' 27.243
'validation' 4.848
  • Özellik yapısı :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'idx': FeaturesDict({
        'answer': int32,
        'paragraph': int32,
        'question': int32,
    }),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
Cevap Metin sicim
idx ÖzelliklerDict
idx/cevap tensör int32
idx/paragraf tensör int32
idx/soru tensör int32
etiket SınıfEtiketi int64
paragraf Metin sicim
soru Metin sicim
  • Alıntı :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/kayıt

  • Yapılandırma açıklaması : (Commonsense Reasoning Dataset ile Okuduğunu Anlama, Zhang ve diğerleri, 2018) çoktan seçmeli bir KG görevidir. Her örnek, bir haber makalesinden ve makale hakkında bir varlığın gizlendiği Cloze tarzı bir sorudan oluşur. Sistem, maskelenen varlığı, sağlanan pasajdaki belirli bir olası varlıklar listesinden tahmin etmelidir; burada aynı varlık, tümü doğru kabul edilen birden fazla farklı yüzey formu kullanılarak ifade edilebilir. Makaleler CNN ve Daily Mail'den alınmıştır. Orijinal çalışmayı takiben, maksimum (tüm bahsedilenler üzerinden) belirteç düzeyinde F1 ve tam eşleşme (EM) ile değerlendiririz.

  • Ana sayfa : https://sheng-z.github.io/ReCoRD-explorer/

  • İndirme boyutu : 49.36 MiB

  • Veri kümesi boyutu : 166.40 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Evet (test, doğrulama), Yalnızca shuffle_files=False (tren) olduğunda

  • bölmeler :

Bölmek örnekler
'test' 10.000
'train' 100.730
'validation' 10.000
  • Özellik yapısı :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=string)),
    'entities': Sequence(Text(shape=(), dtype=string)),
    'idx': FeaturesDict({
        'passage': int32,
        'query': int32,
    }),
    'passage': Text(shape=(), dtype=string),
    'query': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
Yanıtlar Sıra(Metin) (Hiçbiri,) sicim
varlıklar Sıra(Metin) (Hiçbiri,) sicim
idx ÖzelliklerDict
idx/geçiş tensör int32
idx/sorgu tensör int32
geçit Metin sicim
sorgu Metin sicim
  • Alıntı :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/rte

  • Yapılandırma açıklaması : Metinsel Yükümlülüğü Tanıma (RTE) veri kümeleri, belirli bir öncül cümlenin belirli bir hipotez cümlesini (doğal dil çıkarımı, NLI olarak da bilinir) gerektirip gerektirmediğini tahmin etme sorunu olan metinsel gereksinim üzerine bir dizi yıllık yarışmadan gelir. RTE daha önce GLUE'ye dahil edilmişti ve öncekiyle aynı verileri ve formatı kullanıyoruz: RTE1 (Dagan ve diğerleri, 2006), RTE2 (Bar Haim ve diğerleri, 2006), RTE3'ten (Giampiccolo ve diğerleri, 2007) ve RTE5 (Bentivogli ve diğerleri, 2009). Tüm veri kümeleri birleştirilir ve iki sınıflı sınıflandırmaya dönüştürülür: entailment ve not_entailment. Tüm GLUE görevleri arasında RTE, GLUE piyasaya sürüldüğü sırada neredeyse rastgele şans performansından (~%56) %85 doğruluğa (Liu ve diğerleri, 2019c) sıçrayarak transfer öğreniminden en çok yararlananlar arasındaydı. yazma zamanı. Bununla birlikte, insan performansına göre sekiz puanlık fark göz önüne alındığında, görev henüz makineler tarafından çözülmedi ve kalan boşluğu kapatmanın zor olacağını düşünüyoruz.

  • Ana sayfa : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • İndirme boyutu : 733.32 KiB

  • Veri kümesi boyutu : 2.15 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'test' 3.000
'train' 2.490
'validation' 277
  • Özellik yapısı :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
hipotez Metin sicim
idx tensör int32
etiket SınıfEtiketi int64
Öncül Metin sicim
  • Alıntı :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wic

  • Yapılandırma açıklaması : Bağlam İçinde Sözcük (WiC, Pilehvar ve Camacho-Collados, 2019) veri kümesi, cümle çiftleri üzerinden ikili sınıflandırma olarak kullanılan bir sözcük anlamı anlam ayrımı görevini destekler. Verilen iki cümle ve her iki cümlede de geçen çok anlamlı (anlam-belirsiz) bir sözcük verildiğinde görev, sözcüğün her iki cümlede de aynı anlamda kullanılıp kullanılmadığını belirlemektir. Cümleler WordNet (Miller, 1995), VerbNet (Schuler, 2005) ve Vikisözlük'ten alınmıştır. Orijinal çalışmayı takip eder ve doğruluk kullanarak değerlendiririz.

  • Ana sayfa : https://pilehvar.github.io/wic/

  • İndirme boyutu : 386.93 KiB

  • Veri kümesi boyutu : 1.67 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'test' 1.400
'train' 5.428
'validation' 638
  • Özellik yapısı :
FeaturesDict({
    'end1': int32,
    'end2': int32,
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
    'start1': int32,
    'start2': int32,
    'word': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
bitiş1 tensör int32
bitiş2 tensör int32
idx tensör int32
etiket SınıfEtiketi int64
cümle1 Metin sicim
cümle2 Metin sicim
başlangıç1 tensör int32
başlangıç2 tensör int32
kelime Metin sicim
  • Alıntı :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc

  • Yapılandırma açıklaması : Winograd Schema Challenge (WSC, Levesque ve diğerleri, 2012), bir sistemin zamirli bir cümle okuması ve bir seçenekler listesinden o zamirin göndergesini seçmesi gereken bir okuduğunu anlama görevidir. Bu görevin zorluğu ve kalan boşluk payı göz önüne alındığında, WSC'yi SuperGLUE'ya dahil ettik ve veri setini çekirdek referans formuna dönüştürdük. Görev, çoktan seçmeli koşullarda devreye girebilecek diğer çeşitli stratejilerin aksine, modelin bir cümle içindeki bağıntı bağlantılarını anlama yeteneğini izole etmek için N-çoktan seçmeli yerine ikili bir sınıflandırma problemi olarak oluşturulmuştur. Bunu göz önünde bulundurarak, gizli test setinin dağılımını yansıtan doğrulama setinde %65 negatif çoğunluk sınıfı ve eğitim setinde %52 negatif sınıf ile bir bölme oluşturuyoruz. Eğitim ve doğrulama örnekleri, orijinal Winograd Schema veri kümesinden (Levesque ve diğerleri, 2012) ve ayrıca bağlı kuruluş Commonsense Reasoning tarafından dağıtılanlardan alınmıştır. Test örnekleri kurgu kitaplarından alınmıştır ve orijinal veri setinin yazarları tarafından bizimle paylaşılmıştır. Daha önce, WNLI olarak bilinen, GLUE'de yer alan WSC'nin bir sürümü NLI olarak yeniden düzenlendi. WNLI'de kayda değer bir ilerleme kaydedilmedi ve birçok başvuru yalnızca çoğunluk sınıf tahminlerini göndermeyi seçti. WNLI, çekişmeli bir tren/dev ayrımı nedeniyle özellikle zor hale getirildi: Eğitim setinde görünen öncül cümleler bazen geliştirme setinde farklı bir hipotez ve ters çevrilmiş bir etiketle ortaya çıktı. Bir sistem eğitim setini anlamlı bir şekilde genelleme yapmadan ezberlediyse ki bu, eğitim setinin küçük boyutu nedeniyle kolaydı, geliştirme setinde şansın çok altında performans gösterebilirdi. Eğitim, doğrulama ve test setleri arasında hiçbir cümlenin paylaşılmamasını sağlayarak, WSC'nin SuperGLUE sürümündeki bu rakip tasarımı kaldırıyoruz.

Bununla birlikte, doğrulama ve test setleri farklı alanlardan gelir ve doğrulama seti belirsiz örneklerden oluşur, öyle ki isim olmayan bir kelimenin değiştirilmesi cümledeki bağıntı bağımlılıklarını değiştirir. Test seti, çok sayıda isim tamlaması (ve dolayısıyla model için daha fazla seçenek) içeren, ancak düşük veya hiç belirsizlik içermeyen yalnızca daha basit örneklerden oluşur.

Bölmek örnekler
'test' 146
'train' 554
'validation' 104
  • Özellik yapısı :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
idx tensör int32
etiket SınıfEtiketi int64
yayılma1_index tensör int32
yayılma1_metni Metin sicim
yayılma2_index tensör int32
yayılma2_metni Metin sicim
Metin Metin sicim
  • Alıntı :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.fixed

  • Yapılandırma açıklaması : Winograd Schema Challenge (WSC, Levesque ve diğerleri, 2012), bir sistemin zamirli bir cümle okuması ve bir seçenekler listesinden o zamirin göndergesini seçmesi gereken bir okuduğunu anlama görevidir. Bu görevin zorluğu ve kalan boşluk payı göz önüne alındığında, WSC'yi SuperGLUE'ya dahil ettik ve veri setini çekirdek referans formuna dönüştürdük. Görev, çoktan seçmeli koşullarda devreye girebilecek diğer çeşitli stratejilerin aksine, modelin bir cümle içindeki bağıntı bağlantılarını anlama yeteneğini izole etmek için N-çoktan seçmeli yerine ikili bir sınıflandırma problemi olarak oluşturulmuştur. Bunu göz önünde bulundurarak, gizli test setinin dağılımını yansıtan doğrulama setinde %65 negatif çoğunluk sınıfı ve eğitim setinde %52 negatif sınıf ile bir bölme oluşturuyoruz. Eğitim ve doğrulama örnekleri, orijinal Winograd Schema veri kümesinden (Levesque ve diğerleri, 2012) ve ayrıca bağlı kuruluş Commonsense Reasoning tarafından dağıtılanlardan alınmıştır. Test örnekleri kurgu kitaplarından alınmıştır ve orijinal veri setinin yazarları tarafından bizimle paylaşılmıştır. Daha önce, WNLI olarak bilinen, GLUE'de yer alan WSC'nin bir sürümü NLI olarak yeniden düzenlendi. WNLI'de kayda değer bir ilerleme kaydedilmedi ve birçok başvuru yalnızca çoğunluk sınıf tahminlerini göndermeyi seçti. WNLI, çekişmeli bir tren/dev ayrımı nedeniyle özellikle zor hale getirildi: Eğitim setinde görünen öncül cümleler bazen geliştirme setinde farklı bir hipotez ve ters çevrilmiş bir etiketle ortaya çıktı. Bir sistem eğitim setini anlamlı bir şekilde genelleme yapmadan ezberlediyse ki bu, eğitim setinin küçük boyutu nedeniyle kolaydı, geliştirme setinde şansın çok altında performans gösterebilirdi. Eğitim, doğrulama ve test setleri arasında hiçbir cümlenin paylaşılmamasını sağlayarak, WSC'nin SuperGLUE sürümündeki bu rakip tasarımı kaldırıyoruz.

Bununla birlikte, doğrulama ve test setleri farklı alanlardan gelir ve doğrulama seti belirsiz örneklerden oluşur, öyle ki isim olmayan bir kelimenin değiştirilmesi cümledeki bağıntı bağımlılıklarını değiştirir. Test seti, çok sayıda isim tamlaması (ve dolayısıyla model için daha fazla seçenek) içeren, ancak düşük veya hiç belirsizlik içermeyen yalnızca daha basit örneklerden oluşur.

Bu sürüm, açıklıkların aslında metnin alt dizileri olmadığı sorunları giderir.

Bölmek örnekler
'test' 146
'train' 554
'validation' 104
  • Özellik yapısı :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
idx tensör int32
etiket SınıfEtiketi int64
yayılma1_index tensör int32
yayılma1_metni Metin sicim
yayılma2_index tensör int32
yayılma2_metni Metin sicim
Metin Metin sicim
  • Alıntı :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axb

  • Yapılandırma açıklaması : Geniş bir dil, sağduyu ve dünya bilgisi yelpazesi için modelleri otomatik olarak test eden, uzmanlar tarafından oluşturulmuş, tanılama veri kümesi. Bu geniş kapsamlı teşhisteki her örnek, üç yollu bir gereklilik ilişkisi (gereklilik, nötr veya çelişki) ile etiketlenmiş ve iki cümle arasındaki ilişkiyi karakterize eden fenomeni gösteren etiketlerle etiketlenmiş bir cümle çiftidir. GLUE lider panosuna yapılan gönderimlerin, tanılama veri setinde gönderimin MultiNLI sınıflandırıcısından gelen tahminleri içermesi gerekir ve sonuçların analizleri ana lider tablosunun yanında gösterilir. Bu geniş kapsamlı teşhis görevi en iyi modeller için zor olduğu için SuperGLUE'da tutuyoruz. Bununla birlikte, MultiNLI, SuperGLUE'nun bir parçası olmadığı için, çelişkiyi ve tarafsızlığı tek bir not_entailment etiketine indirger ve gönderimlerin, RTE görevi için kullanılan modelden elde edilen kümedeki tahminleri içermesini isteriz.

  • Ana Sayfa : https://glubenchmark.com/diagnostics

  • İndirme boyutu : 33.15 KiB

  • Veri kümesi boyutu : 290.53 KiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'test' 1.104
  • Özellik yapısı :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
idx tensör int32
etiket SınıfEtiketi int64
cümle1 Metin sicim
cümle2 Metin sicim
  • Alıntı :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axg

  • Yapılandırma açıklaması : Winogender, çekirdek referans çözümleme sistemlerinde cinsiyet yanlılığını ölçmek için tasarlanmıştır. Winogender'ı metinsel bir görev olarak kullanan Diverse Natural Language Inference Collection (DNC; Poliak ve diğerleri, 2018) sürümünü kullanıyoruz. Her örnek, bir erkek veya dişi zamiri olan bir öncül cümleden ve zamirin olası bir öncülünü veren bir hipotezden oluşur. Örnekler, bir örnek ile onun çifti arasındaki tek farkın öncüldeki zamirin cinsiyeti olduğu minimal çiftler halinde ortaya çıkar. Winogender'daki performans, hem doğruluk hem de cinsiyet eşitliği puanıyla ölçülür: tahminlerin aynı olduğu minimum çiftlerin yüzdesi. Bir sistemin tüm örnekler için aynı sınıfı tahmin ederek önemsiz bir şekilde mükemmel bir cinsiyet eşitliği puanı elde edebileceğini, bu nedenle yüksek bir cinsiyet eşitliği puanının, yüksek doğrulukla birlikte olmadıkça anlamsız olduğunu not ediyoruz. Cinsiyet yanlılığının tanısal bir testi olarak, şemaları yüksek pozitif tahmin değeri ve düşük negatif tahmin değeri olarak görüyoruz; yani, bir sistemde toplumsal cinsiyet yanlılığının varlığını gösterebilirler, ancak yokluğunu kanıtlayamazlar.

  • Ana Sayfa : https://github.com/rudinger/winogender-schemas

  • İndirme boyutu : 10.17 KiB

  • Veri kümesi boyutu : 69.75 KiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • bölmeler :

Bölmek örnekler
'test' 356
  • Özellik yapısı :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
hipotez Metin sicim
idx tensör int32
etiket SınıfEtiketi int64
Öncül Metin sicim
  • Alıntı :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.