Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

lem super

  • Deskripsi :

SuperGLUE ( https://super.gluebenchmark.com/ ) adalah tolok ukur baru yang ditata setelah GLUE dengan serangkaian tugas pemahaman bahasa baru yang lebih sulit, sumber daya yang ditingkatkan, dan papan peringkat publik baru.

super_glue / boolq (konfigurasi default)

  • Deskripsi konfigurasi : BoolQ (Boolean Questions, Clark et al., 2019a) adalah tugas QA di mana setiap contoh terdiri dari bagian pendek dan pertanyaan ya / tidak tentang bagian tersebut. Pertanyaan diberikan secara anonim dan tidak diminta oleh pengguna mesin pencari Google, dan kemudian dipasangkan dengan paragraf dari artikel Wikipedia yang berisi jawabannya. Mengikuti karya asli, kami mengevaluasi dengan akurat.

  • Beranda : https://github.com/google-research-datasets/boolean-questions

  • Ukuran unduhan : 3.93 MiB

  • Split :

Membagi Contoh
'test' 3.245
'train' 9.427
'validation' 3.270
  • Fitur :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'passage': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Kutipan :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / cb

  • Config description : The CommitmentBank (De Marneffe et al., 2019) adalah korpus teks pendek di mana setidaknya satu kalimat berisi klausa tertanam. Masing-masing klausa yang disematkan ini dianotasi dengan sejauh mana kami berharap orang yang menulis teks berkomitmen pada kebenaran klausa tersebut. Tugas yang dihasilkan dibingkai sebagai tambahan tekstual tiga kelas pada contoh-contoh yang diambil dari Wall Street Journal, fiksi dari British National Corpus, dan Switchboard. Setiap contoh terdiri dari premis yang berisi klausa tertanam dan hipotesis terkait adalah ekstraksi klausa tersebut. Kami menggunakan subset dari data yang memiliki kesepakatan antar-anotator di atas 0,85. Datanya tidak seimbang (contoh netral yang relatif lebih sedikit), jadi kami mengevaluasi menggunakan akurasi dan F1, di mana untuk F1 multi-kelas kami menghitung rata-rata F1 per kelas yang tidak tertimbang.

  • Beranda : https://github.com/mcdm/CommitmentBank

  • Ukuran download : 73.71 KiB

  • Split :

Membagi Contoh
'test' 250
'train' 250
'validation' 56
  • Fitur :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Kutipan :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / copa

  • Deskripsi konfigurasi : Dataset Pilihan Alternatif yang Masuk Akal (COPA, Roemmele et al., 2011) adalah tugas penalaran kausal di mana sistem diberi kalimat premis dan dua kemungkinan alternatif. Sistem harus memilih alternatif yang memiliki hubungan kausal yang lebih masuk akal dengan premis. Metode yang digunakan untuk membangun alternatif memastikan bahwa tugas tersebut memerlukan penalaran sebab akibat untuk dipecahkan. Contoh menangani kemungkinan penyebab alternatif atau kemungkinan efek alternatif dari kalimat premis, disertai dengan pertanyaan sederhana yang memisahkan antara dua jenis contoh untuk model. Semua contoh dibuat dengan tangan dan fokus pada topik dari blog online dan ensiklopedia terkait fotografi. Mengikuti rekomendasi penulis, kami mengevaluasi menggunakan akurasi.

  • Situs web : http://people.ict.usc.edu/~gordon/copa.html

  • Ukuran download : 42.96 KiB

  • Split :

Membagi Contoh
'test' 500
'train' 400
'validation' 100
  • Fitur :
FeaturesDict({
    'choice1': Text(shape=(), dtype=tf.string),
    'choice2': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Kutipan :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / multirc

  • Deskripsi konfigurasi : Dataset Multi-Sentence Reading Comprehension (MultiRC, Khashabi et al., 2018) adalah tugas menjawab pertanyaan benar / salah. Setiap contoh terdiri dari paragraf konteks, pertanyaan tentang paragraf itu, dan daftar kemungkinan jawaban untuk pertanyaan itu yang harus diberi label sebagai benar atau salah. Menjawab pertanyaan (QA) adalah masalah populer dengan banyak kumpulan data. Kami menggunakan MultiRC karena sejumlah properti yang diinginkan: (i) setiap pertanyaan dapat memiliki beberapa kemungkinan jawaban benar, sehingga setiap pasangan pertanyaan-jawaban harus dievaluasi secara independen dari pasangan lainnya, (ii) pertanyaan dirancang sedemikian rupa sehingga menjawab setiap pertanyaan membutuhkan menggambar fakta dari beberapa kalimat konteks, dan (iii) format pasangan pertanyaan-jawaban lebih cocok dengan API tugas SuperGLUE lainnya daripada QA ekstraktif berbasis rentang. Paragraf diambil dari tujuh domain termasuk berita, fiksi, dan teks sejarah.

  • Beranda : https://cogcomp.org/multirc/

  • Ukuran unduhan : 1.06 MiB

  • Split :

Membagi Contoh
'test' 9.693
'train' 27.243
'validation' 4.848
  • Fitur :
FeaturesDict({
    'answer': Text(shape=(), dtype=tf.string),
    'idx': FeaturesDict({
        'answer': tf.int32,
        'paragraph': tf.int32,
        'question': tf.int32,
    }),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Kutipan :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / record

  • Deskripsi konfigurasi : (Membaca Pemahaman dengan Kumpulan Data Penalaran Akal sehat, Zhang et al., 2018) adalah tugas QA pilihan ganda. Setiap contoh terdiri dari artikel berita dan pertanyaan gaya Cloze tentang artikel yang satu entitasnya disembunyikan. Sistem harus memprediksi entitas yang ditutup-tutupi dari daftar entitas yang mungkin dalam bagian yang disediakan, di mana entitas yang sama dapat diekspresikan menggunakan berbagai bentuk permukaan yang berbeda, yang semuanya dianggap benar. Artikel diambil dari CNN dan Daily Mail. Mengikuti pekerjaan asli, kami mengevaluasi dengan max (lebih dari semua sebutan) F1 tingkat token dan pencocokan tepat (EM).

  • Situs web : https://sheng-z.github.io/ReCoRD-explorer/

  • Ukuran unduhan : 49.36 MiB

  • Split :

Membagi Contoh
'test' 10.000
'train' 100.730
'validation' 10.000
  • Fitur :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=tf.string)),
    'entities': Sequence(Text(shape=(), dtype=tf.string)),
    'idx': FeaturesDict({
        'passage': tf.int32,
        'query': tf.int32,
    }),
    'passage': Text(shape=(), dtype=tf.string),
    'query': Text(shape=(), dtype=tf.string),
})
  • Kutipan :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / rte

  • Deskripsi konfigurasi : Dataset Recognizing Textual Entailment (RTE) berasal dari serangkaian kompetisi tahunan tentang teks entailment, masalah memprediksi apakah kalimat premis tertentu memerlukan kalimat hipotesis tertentu (juga dikenal sebagai inferensi bahasa alami, NLI). RTE sebelumnya dimasukkan dalam GLUE, dan kami menggunakan data dan format yang sama seperti sebelumnya: Kami menggabungkan data dari RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007), dan RTE5 (Bentivogli et al., 2009). Semua dataset digabungkan dan diubah menjadi klasifikasi dua kelas: entailment dan not_entailment. Dari semua tugas GLUE, RTE adalah salah satu yang paling diuntungkan dari pembelajaran transfer, melompat dari kinerja hampir kebetulan (~ 56%) pada saat GLUE diluncurkan ke akurasi 85% (Liu et al., 2019c) di waktu penulisan. Namun, mengingat selisih delapan poin sehubungan dengan kinerja manusia, tugas tersebut belum diselesaikan oleh mesin, dan kami berharap celah yang tersisa sulit untuk ditutup.

  • Beranda : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Ukuran download : 733.32 KiB

  • Split :

Membagi Contoh
'test' 3.000
'train' 2.490
'validation' 277
  • Fitur :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Kutipan :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wic

  • Deskripsi konfigurasi : Dataset Word-in-Context (WiC, Pilehvar and Camacho-Collados, 2019) mendukung tugas disambiguasi arti kata yang ditampilkan sebagai klasifikasi biner atas pasangan kalimat. Diberikan dua kalimat dan kata polysemous (arti-ambigu) yang muncul di kedua kalimat, tugasnya adalah menentukan apakah kata tersebut digunakan dengan pengertian yang sama di kedua kalimat. Kalimat diambil dari WordNet (Miller, 1995), VerbNet (Schuler, 2005), dan Wiktionary. Kami mengikuti karya asli dan mengevaluasi menggunakan akurasi.

  • Situs web : https://pilehvar.github.io/wic/

  • Ukuran download : 386.93 KiB

  • Split :

Membagi Contoh
'test' 1.400
'train' 5,428
'validation' 638
  • Fitur :
FeaturesDict({
    'end1': tf.int32,
    'end2': tf.int32,
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
    'start1': tf.int32,
    'start2': tf.int32,
    'word': Text(shape=(), dtype=tf.string),
})
  • Kutipan :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc

  • Deskripsi konfigurasi : Winograd Schema Challenge (WSC, Levesque et al., 2012) adalah tugas membaca pemahaman di mana sistem harus membaca kalimat dengan kata ganti dan memilih referensi kata ganti tersebut dari daftar pilihan. Mengingat sulitnya tugas ini dan ruang kepala yang masih tersisa, kami telah menyertakan WSC di SuperGLUE dan menyusun ulang dataset ke dalam bentuk intinya. Tugas tersebut dilemparkan sebagai masalah klasifikasi biner, sebagai lawan dari N-pilihan ganda, untuk mengisolasi kemampuan model untuk memahami tautan inti dalam kalimat yang bertentangan dengan berbagai strategi lain yang mungkin ikut bermain dalam kondisi pilihan ganda. Dengan mengingat hal itu, kami membuat pemisahan dengan 65% kelas mayoritas negatif di set validasi, yang mencerminkan distribusi set pengujian tersembunyi, dan 52% kelas negatif di set pelatihan. Contoh pelatihan dan validasi diambil dari kumpulan data Skema Winograd asli (Levesque et al., 2012), serta yang didistribusikan oleh organisasi yang berafiliasi dengan Akal Sehat. Contoh uji berasal dari buku fiksi dan telah dibagikan kepada kami oleh penulis kumpulan data aslinya. Sebelumnya, versi WSC disusun kembali sebagai NLI sebagaimana termasuk dalam GLUE, yang dikenal sebagai WNLI. Tidak ada kemajuan substansial yang dibuat di WNLI, dengan banyak kiriman memilih untuk hanya mengirimkan prediksi kelas mayoritas. WNLI menjadi sangat sulit karena adversarial train / dev split: Kalimat premis yang muncul di set pelatihan terkadang muncul dalam set pengembangan dengan hipotesis berbeda dan label yang dibalik. Jika sebuah sistem menghafal set pelatihan tanpa menggeneralisasi secara berarti, yang mudah karena ukuran set pelatihan yang kecil, ia dapat bekerja jauh di bawah peluang pada set pengembangan. Kami menghapus desain permusuhan ini dalam versi SuperGLUE WSC dengan memastikan bahwa tidak ada kalimat yang dibagikan antara set pelatihan, validasi, dan pengujian.

Namun, set validasi dan pengujian berasal dari domain yang berbeda, dengan set validasi yang terdiri dari contoh-contoh ambigu sehingga mengubah satu kata non-kata benda akan mengubah dependensi inti dalam kalimat. Set pengujian hanya terdiri dari contoh yang lebih jelas, dengan jumlah frasa kata benda yang tinggi (dan dengan demikian lebih banyak pilihan untuk model), tetapi rendah atau tidak ada ambiguitas.

Membagi Contoh
'test' 146
'train' 554
'validation' 104
  • Fitur :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • Kutipan :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc.fixed

  • Deskripsi konfigurasi : Tantangan Skema Winograd (WSC, Levesque et al., 2012) adalah tugas membaca pemahaman di mana sistem harus membaca kalimat dengan kata ganti dan memilih referensi dari kata ganti itu dari daftar pilihan. Mengingat sulitnya tugas ini dan ruang kepala yang masih tersisa, kami telah menyertakan WSC di SuperGLUE dan menyusun ulang dataset ke dalam bentuk intinya. Tugas tersebut dilemparkan sebagai masalah klasifikasi biner, sebagai lawan dari N-pilihan ganda, untuk mengisolasi kemampuan model untuk memahami tautan inti dalam kalimat yang bertentangan dengan berbagai strategi lain yang mungkin ikut bermain dalam kondisi pilihan ganda. Dengan mengingat hal itu, kami membuat pemisahan dengan 65% kelas mayoritas negatif di set validasi, yang mencerminkan distribusi set pengujian tersembunyi, dan 52% kelas negatif di set pelatihan. Contoh pelatihan dan validasi diambil dari kumpulan data Skema Winograd asli (Levesque et al., 2012), serta yang didistribusikan oleh organisasi yang berafiliasi dengan Penalaran Masuk Akal. Contoh uji berasal dari buku fiksi dan telah dibagikan kepada kami oleh penulis kumpulan data aslinya. Sebelumnya, versi WSC disusun kembali sebagai NLI sebagaimana termasuk dalam GLUE, yang dikenal sebagai WNLI. Tidak ada kemajuan substansial yang dibuat di WNLI, dengan banyak kiriman memilih untuk hanya mengirimkan prediksi kelas mayoritas. WNLI menjadi sangat sulit karena adversarial train / dev split: Kalimat premis yang muncul di set pelatihan terkadang muncul dalam set pengembangan dengan hipotesis berbeda dan label yang dibalik. Jika sebuah sistem menghafal set pelatihan tanpa menggeneralisasi secara berarti, yang mudah karena ukuran set pelatihan yang kecil, ia dapat bekerja jauh di bawah peluang pada set pengembangan. Kami menghapus desain permusuhan ini dalam versi SuperGLUE WSC dengan memastikan bahwa tidak ada kalimat yang dibagikan antara set pelatihan, validasi, dan pengujian.

Namun, set validasi dan pengujian berasal dari domain yang berbeda, dengan set validasi yang terdiri dari contoh-contoh ambigu sehingga mengubah satu kata non-kata benda akan mengubah dependensi inti dalam kalimat. Set pengujian hanya terdiri dari contoh yang lebih jelas, dengan jumlah frasa kata benda yang tinggi (dan dengan demikian lebih banyak pilihan untuk model), tetapi rendah atau tidak ada ambiguitas.

Versi ini memperbaiki masalah di mana span sebenarnya bukan substring dari teks.

Membagi Contoh
'test' 146
'train' 554
'validation' 104
  • Fitur :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • Kutipan :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / axb

  • Deskripsi konfigurasi : Kumpulan data diagnostik yang dibuat oleh pakar yang secara otomatis menguji model untuk berbagai linguistik, akal sehat, dan pengetahuan dunia. Setiap contoh dalam diagnostik cakupan luas ini adalah pasangan kalimat yang diberi label relasi entailment tiga arah (entailment, netral, atau kontradiksi) dan diberi label yang menunjukkan fenomena yang menjadi ciri hubungan antara dua kalimat tersebut. Kiriman ke papan peringkat GLUE harus menyertakan prediksi dari pengklasifikasi MultiNLI kiriman di set data diagnostik, dan analisis hasilnya ditampilkan di samping papan peringkat utama. Karena tugas diagnostik dengan cakupan luas ini terbukti sulit untuk model top, kami menyimpannya di SuperGLUE. Namun, karena MultiNLI bukan bagian dari SuperGLUE, kami menciutkan kontradiksi dan netral menjadi satu label not_entailment, dan meminta pengiriman menyertakan prediksi pada set yang dihasilkan dari model yang digunakan untuk tugas RTE.

  • Beranda : https://gluebenchmark.com/diagnostics

  • Ukuran download : 33.15 KiB

  • Split :

Membagi Contoh
'test' 1.104
  • Fitur :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Kutipan :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / axg

  • Deskripsi konfigurasi : Winogender dirancang untuk mengukur bias gender dalam sistem resolusi coreference. Kami menggunakan versi Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) yang menggunakan Winogender sebagai tugas tekstual entailment. Setiap contoh terdiri dari kalimat premis dengan kata ganti pria atau wanita dan hipotesis yang memberikan kemungkinan anteseden kata ganti tersebut. Contoh terjadi pada pasangan minimal, di mana satu-satunya perbedaan antara contoh dan pasangannya adalah jenis kelamin kata ganti dalam premis. Kinerja di Winogender diukur dengan akurasi dan skor kesetaraan gender: persentase pasangan minimal yang prediksinya sama. Kami mencatat bahwa sistem dapat dengan mudah memperoleh skor paritas gender yang sempurna dengan menebak kelas yang sama untuk semua contoh, jadi skor paritas gender yang tinggi tidak ada artinya kecuali disertai dengan akurasi yang tinggi. Sebagai tes diagnostik bias gender, kami melihat skema memiliki nilai prediksi positif yang tinggi dan nilai prediksi negatif yang rendah; artinya, mereka mungkin menunjukkan adanya bias gender dalam suatu sistem, tetapi tidak membuktikan ketidakhadirannya.

  • Situs web : https://github.com/rudinger/winogender-schemas

  • Ukuran download : 10.17 KiB

  • Split :

Membagi Contoh
'test' 356
  • Fitur :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Kutipan :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.