TFDS sekarang mendukung format Croissant 🥐 ! Baca dokumentasi untuk mengetahui lebih lanjut.

Halaman ini diterjemahkan oleh Cloud Translation API.

lem super

Deskripsi :

SuperGLUE ( https://super.gluebenchmark.com/ ) adalah tolok ukur baru yang ditata setelah GLUE dengan serangkaian tugas pemahaman bahasa yang lebih sulit, sumber daya yang ditingkatkan, dan papan peringkat publik baru.

Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Kode sumber : tfds.text.SuperGlue
Versi :
- 1.0.2 (default): Tidak ada catatan rilis.
Kunci yang diawasi (Lihat as_supervised doc ): None
Gambar ( tfds.show_examples ): Tidak didukung.

super_glue/boolq (konfigurasi default)

Deskripsi konfigurasi : BoolQ (Boolean Questions, Clark et al., 2019a) adalah tugas QA di mana setiap contoh terdiri dari bagian pendek dan pertanyaan ya/tidak tentang bagian tersebut. Pertanyaan diberikan secara anonim dan tidak diminta oleh pengguna mesin pencari Google, dan kemudian dipasangkan dengan paragraf dari artikel Wikipedia yang berisi jawabannya. Mengikuti karya asli, kami mengevaluasi dengan akurat.
Beranda : https://github.com/google-research-datasets/boolean-questions
Ukuran unduhan : 3.93 MiB
Ukuran dataset : 10.75 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'test'`	3.245
`'train'`	9.427
`'validation'`	3.270

Struktur fitur :

FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'passage': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
idx	Tensor	int32
label	LabelKelas	int64
jalan	Teks	rangkaian
pertanyaan	Teks	rangkaian

Contoh ( tfds.as_dataframe ):

Kutipan :

@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

lem_super/cb

Deskripsi Config : CommitmentBank (De Marneffe et al., 2019) adalah korpus teks pendek di mana setidaknya satu kalimat berisi klausa yang disematkan. Masing-masing klausa yang disematkan ini dianotasi dengan sejauh mana kita berharap bahwa orang yang menulis teks berkomitmen pada kebenaran klausa tersebut. Tugas yang dihasilkan dibingkai sebagai keterlibatan tekstual tiga kelas pada contoh yang diambil dari Wall Street Journal, fiksi dari British National Corpus, dan Switchboard. Setiap contoh terdiri dari premis yang mengandung klausa tertanam dan hipotesis yang sesuai adalah ekstraksi dari klausa itu. Kami menggunakan subkumpulan data yang memiliki kesepakatan antar-annotator di atas 0,85. Data tidak seimbang (relatif lebih sedikit contoh netral), jadi kami mengevaluasi menggunakan akurasi dan F1, di mana untuk multi-kelas F1 kami menghitung rata-rata tak tertimbang dari F1 per kelas.
Beranda : https://github.com/mcdm/CommitmentBank
Ukuran unduhan : 73.71 KiB
Ukuran dataset : 229.28 KiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'test'`	250
`'train'`	250
`'validation'`	56

Struktur fitur :

FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
hipotesa	Teks	rangkaian
idx	Tensor	int32
label	LabelKelas	int64
premis	Teks	rangkaian

Contoh ( tfds.as_dataframe ):

Kutipan :

@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/copa

Deskripsi konfigurasi : The Choice Of Plausible Alternatives (COPA, Roemmele et al., 2011) dataset adalah tugas penalaran kausal di mana sistem diberi kalimat premis dan dua kemungkinan alternatif. Sistem harus memilih alternatif yang memiliki hubungan kausal yang lebih masuk akal dengan premis. Metode yang digunakan untuk membangun alternatif memastikan bahwa tugas membutuhkan penalaran kausal untuk menyelesaikannya. Contohnya berurusan dengan kemungkinan penyebab alternatif atau kemungkinan efek alternatif dari kalimat premis, disertai dengan pertanyaan sederhana yang membedakan antara dua jenis contoh untuk model tersebut. Semua contoh dibuat dengan tangan dan fokus pada topik dari blog online dan ensiklopedia terkait fotografi. Mengikuti rekomendasi dari penulis, kami mengevaluasi menggunakan akurasi.
Beranda : http://people.ict.usc.edu/~gordon/copa.html
Ukuran unduhan : 42.96 KiB
Ukuran dataset : 196.00 KiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'test'`	500
`'train'`	400
`'validation'`	100

Struktur fitur :

FeaturesDict({
    'choice1': Text(shape=(), dtype=string),
    'choice2': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
pilihan1	Teks	rangkaian
pilihan2	Teks	rangkaian
idx	Tensor	int32
label	LabelKelas	int64
premis	Teks	rangkaian
pertanyaan	Teks	rangkaian

Contoh ( tfds.as_dataframe ):

Kutipan :

@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/multirc

Deskripsi konfigurasi : Kumpulan data Pemahaman Membaca Multi-Kalimat (MultiRC, Khashabi et al., 2018) adalah tugas menjawab pertanyaan benar/salah. Setiap contoh terdiri dari paragraf konteks, pertanyaan tentang paragraf itu, dan daftar kemungkinan jawaban untuk pertanyaan itu yang harus diberi label benar atau salah. Question-answering (QA) adalah masalah yang populer dengan banyak kumpulan data. Kami menggunakan MultiRC karena sejumlah properti yang diinginkan: (i) setiap pertanyaan dapat memiliki banyak kemungkinan jawaban yang benar, sehingga setiap pasangan pertanyaan-jawaban harus dievaluasi secara independen dari pasangan lainnya, (ii) pertanyaan dirancang sedemikian rupa sehingga menjawab setiap pertanyaan membutuhkan menggambar fakta dari beberapa kalimat konteks, dan (iii) format pasangan pertanyaan-jawaban lebih cocok dengan API tugas SuperGLUE lainnya daripada QA ekstraktif berbasis span. Paragraf diambil dari tujuh domain termasuk berita, fiksi, dan teks sejarah.
Beranda : https://cogcomp.org/multirc/
Ukuran unduhan : 1.06 MiB
Ukuran dataset : 70.39 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'test'`	9.693
`'train'`	27.243
`'validation'`	4.848

Struktur fitur :

FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'idx': FeaturesDict({
        'answer': int32,
        'paragraph': int32,
        'question': int32,
    }),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
menjawab	Teks	rangkaian
idx	fiturDict
idx/jawaban	Tensor	int32
idx/paragraf	Tensor	int32
idx/pertanyaan	Tensor	int32
label	LabelKelas	int64
gugus kalimat	Teks	rangkaian
pertanyaan	Teks	rangkaian

Contoh ( tfds.as_dataframe ):

Kutipan :

@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

lem_super/rekam

Deskripsi konfigurasi : (Reading Comprehension with Commonsense Reasoning Dataset, Zhang et al., 2018) adalah tugas QA pilihan ganda. Setiap contoh terdiri dari artikel berita dan pertanyaan bergaya Cloze tentang artikel di mana satu entitas disamarkan. Sistem harus memprediksi entitas bertopeng dari daftar entitas yang mungkin ada dalam bagian yang disediakan, di mana entitas yang sama dapat diekspresikan menggunakan berbagai bentuk permukaan yang berbeda, yang semuanya dianggap benar. Artikel diambil dari CNN dan Daily Mail. Mengikuti karya asli, kami mengevaluasi dengan F1 level token maks (di atas semua penyebutan) dan pencocokan tepat (EM).
Beranda : https://sheng-z.github.io/ReCoRD-explorer/
Ukuran unduhan : 49.36 MiB
Ukuran dataset : 166.40 MiB
Auto-cached ( dokumentasi ): Ya (test, validasi), Hanya ketika shuffle_files=False (train)
Perpecahan :

Membelah	Contoh
`'test'`	10.000
`'train'`	100.730
`'validation'`	10.000

Struktur fitur :

FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=string)),
    'entities': Sequence(Text(shape=(), dtype=string)),
    'idx': FeaturesDict({
        'passage': int32,
        'query': int32,
    }),
    'passage': Text(shape=(), dtype=string),
    'query': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
jawaban	Urutan (Teks)	(Tidak ada,)	rangkaian
entitas	Urutan (Teks)	(Tidak ada,)	rangkaian
idx	fiturDict
idx/bagian	Tensor		int32
idx/kueri	Tensor		int32
jalan	Teks		rangkaian
pertanyaan	Teks		rangkaian

Contoh ( tfds.as_dataframe ):

Kutipan :

@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/rte

Deskripsi Config : Kumpulan data Recognizing Textual Entailment (RTE) berasal dari serangkaian kompetisi tahunan tentang keterkaitan tekstual, masalah memprediksi apakah kalimat premis tertentu memerlukan kalimat hipotesis tertentu (juga dikenal sebagai inferensi bahasa alami, NLI). RTE sebelumnya disertakan dalam GLUE, dan kami menggunakan data dan format yang sama seperti sebelumnya: Kami menggabungkan data dari RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007), dan RTE5 (Bentivogli et al., 2009). Semua dataset digabungkan dan diubah menjadi klasifikasi dua kelas: entailment dan not_entailment. Dari semua tugas GLUE, RTE adalah salah satu yang paling diuntungkan dari pembelajaran transfer, melompat dari kinerja peluang acak (~56%) pada saat peluncuran GLUE ke akurasi 85% (Liu et al., 2019c) pada waktu penulisan. Namun, mengingat kesenjangan delapan poin sehubungan dengan kinerja manusia, tugas tersebut belum diselesaikan oleh mesin, dan kami memperkirakan celah yang tersisa akan sulit untuk ditutup.
Beranda : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment
Ukuran unduhan : 733.32 KiB
Ukuran dataset : 2.15 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'test'`	3.000
`'train'`	2.490
`'validation'`	277

Struktur fitur :

FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
hipotesa	Teks	rangkaian
idx	Tensor	int32
label	LabelKelas	int64
premis	Teks	rangkaian

Contoh ( tfds.as_dataframe ):

Kutipan :

@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wic

Deskripsi konfigurasi : Dataset Word-in-Context (WiC, Pilehvar dan Camacho-Collados, 2019) mendukung tugas disambiguasi pengertian kata yang dilemparkan sebagai klasifikasi biner pada pasangan kalimat. Diberikan dua kalimat dan kata polisemik (sense-ambigu) yang muncul di kedua kalimat, tugasnya adalah menentukan apakah kata tersebut digunakan dengan arti yang sama di kedua kalimat. Kalimat diambil dari WordNet (Miller, 1995), VerbNet (Schuler, 2005), dan Wiktionary. Kami mengikuti karya asli dan mengevaluasi menggunakan akurasi.
Beranda : https://pilehvar.github.io/wic/
Ukuran unduhan : 386.93 KiB
Ukuran dataset : 1.67 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'test'`	1.400
`'train'`	5.428
`'validation'`	638

Struktur fitur :

FeaturesDict({
    'end1': int32,
    'end2': int32,
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
    'start1': int32,
    'start2': int32,
    'word': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
akhir1	Tensor	int32
akhir2	Tensor	int32
idx	Tensor	int32
label	LabelKelas	int64
kalimat1	Teks	rangkaian
kalimat2	Teks	rangkaian
mulai1	Tensor	int32
mulai2	Tensor	int32
kata	Teks	rangkaian

Contoh ( tfds.as_dataframe ):

Kutipan :

@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc

Deskripsi konfigurasi : Tantangan Skema Winograd (WSC, Levesque et al., 2012) adalah tugas pemahaman bacaan di mana sistem harus membaca kalimat dengan kata ganti dan memilih rujukan kata ganti tersebut dari daftar pilihan. Mengingat sulitnya tugas ini dan ruang kepala masih tersisa, kami telah menyertakan WSC di SuperGLUE dan menyusun ulang kumpulan data ke dalam bentuk referensi utamanya. Tugas dilemparkan sebagai masalah klasifikasi biner, sebagai lawan dari N-pilihan ganda, untuk mengisolasi kemampuan model untuk memahami tautan referensi dalam kalimat sebagai lawan dari berbagai strategi lain yang mungkin ikut bermain dalam kondisi pilihan ganda. Dengan pemikiran tersebut, kami membuat pemisahan dengan 65% kelas mayoritas negatif di set validasi, yang mencerminkan distribusi set pengujian tersembunyi, dan 52% kelas negatif di set pelatihan. Contoh pelatihan dan validasi diambil dari dataset Skema Winograd asli (Levesque et al., 2012), serta yang didistribusikan oleh organisasi afiliasi Commonsense Reasoning. Contoh uji berasal dari buku fiksi dan telah dibagikan kepada kami oleh penulis kumpulan data asli. Sebelumnya, versi WSC disusun ulang sebagai NLI sebagaimana disertakan dalam LEM, yang dikenal sebagai WNLI. Tidak ada kemajuan substansial yang dibuat pada WNLI, dengan banyak pengajuan memilih untuk hanya mengirimkan prediksi kelas mayoritas. WNLI dibuat sangat sulit karena pemisahan kereta/pengembangan permusuhan: Kalimat premis yang muncul di set pelatihan terkadang muncul di set pengembangan dengan hipotesis berbeda dan label terbalik. Jika suatu sistem menghafal set pelatihan tanpa menggeneralisasi secara bermakna, yang mudah karena ukuran set pelatihan yang kecil, ia dapat bekerja jauh di bawah peluang pada set pengembangan. Kami menghapus desain permusuhan ini dalam WSC versi SuperGLUE dengan memastikan bahwa tidak ada kalimat yang digunakan bersama antara set pelatihan, validasi, dan pengujian.

Namun, set validasi dan tes berasal dari domain yang berbeda, dengan set validasi yang terdiri dari contoh ambigu sehingga mengubah satu kata frase non-nomina akan mengubah dependensi koreferensi dalam kalimat. Set tes hanya terdiri dari contoh yang lebih mudah, dengan jumlah frase kata benda yang tinggi (dan dengan demikian lebih banyak pilihan untuk model), tetapi ambiguitas rendah hingga tidak ada.

Beranda : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
Ukuran unduhan : 31.98 KiB
Ukuran dataset : 219.70 KiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'test'`	146
`'train'`	554
`'validation'`	104

Struktur fitur :

FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
idx	Tensor	int32
label	LabelKelas	int64
span1_index	Tensor	int32
span1_text	Teks	rangkaian
span2_index	Tensor	int32
span2_text	Teks	rangkaian
teks	Teks	rangkaian

Contoh ( tfds.as_dataframe ):

Kutipan :

@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.diperbaiki

Deskripsi konfigurasi : Tantangan Skema Winograd (WSC, Levesque et al., 2012) adalah tugas pemahaman bacaan di mana sistem harus membaca kalimat dengan kata ganti dan memilih rujukan kata ganti tersebut dari daftar pilihan. Mengingat sulitnya tugas ini dan ruang kepala masih tersisa, kami telah menyertakan WSC di SuperGLUE dan menyusun ulang kumpulan data ke dalam bentuk referensi utamanya. Tugas dilemparkan sebagai masalah klasifikasi biner, sebagai lawan dari N-pilihan ganda, untuk mengisolasi kemampuan model untuk memahami tautan referensi dalam kalimat sebagai lawan dari berbagai strategi lain yang mungkin ikut bermain dalam kondisi pilihan ganda. Dengan pemikiran tersebut, kami membuat pemisahan dengan 65% kelas mayoritas negatif di set validasi, yang mencerminkan distribusi set pengujian tersembunyi, dan 52% kelas negatif di set pelatihan. Contoh pelatihan dan validasi diambil dari dataset Skema Winograd asli (Levesque et al., 2012), serta yang didistribusikan oleh organisasi afiliasi Commonsense Reasoning. Contoh uji berasal dari buku fiksi dan telah dibagikan kepada kami oleh penulis kumpulan data asli. Sebelumnya, versi WSC disusun ulang sebagai NLI sebagaimana disertakan dalam LEM, yang dikenal sebagai WNLI. Tidak ada kemajuan substansial yang dibuat pada WNLI, dengan banyak pengajuan memilih untuk hanya mengirimkan prediksi kelas mayoritas. WNLI dibuat sangat sulit karena pemisahan kereta/pengembangan permusuhan: Kalimat premis yang muncul di set pelatihan terkadang muncul di set pengembangan dengan hipotesis berbeda dan label terbalik. Jika suatu sistem menghafal set pelatihan tanpa menggeneralisasi secara bermakna, yang mudah karena ukuran set pelatihan yang kecil, ia dapat bekerja jauh di bawah peluang pada set pengembangan. Kami menghapus desain permusuhan ini dalam WSC versi SuperGLUE dengan memastikan bahwa tidak ada kalimat yang digunakan bersama antara set pelatihan, validasi, dan pengujian.

Versi ini memperbaiki masalah di mana span sebenarnya bukan substring dari teks.

Beranda : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
Ukuran unduhan : 31.98 KiB
Ukuran dataset : 219.70 KiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'test'`	146
`'train'`	554
`'validation'`	104

Struktur fitur :

FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
idx	Tensor	int32
label	LabelKelas	int64
span1_index	Tensor	int32
span1_text	Teks	rangkaian
span2_index	Tensor	int32
span2_text	Teks	rangkaian
teks	Teks	rangkaian

Contoh ( tfds.as_dataframe ):

Kutipan :

@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axb

Deskripsi konfigurasi : Kumpulan data diagnostik yang dibuat oleh pakar yang secara otomatis menguji model untuk berbagai pengetahuan linguistik, akal sehat, dan dunia. Setiap contoh dalam diagnostik bercakupan luas ini adalah pasangan kalimat yang diberi label dengan relasi tiga arah (entailment, netral, atau kontradiksi) dan diberi label yang menunjukkan fenomena yang mencirikan hubungan antara kedua kalimat tersebut. Pengajuan ke papan peringkat GLUE harus menyertakan prediksi dari pengklasifikasi MultiNLI kiriman pada kumpulan data diagnostik, dan analisis hasil ditampilkan di samping papan peringkat utama. Karena tugas diagnostik cakupan luas ini terbukti sulit untuk model teratas, kami mempertahankannya di SuperGLUE. Namun, karena MultiNLI bukan bagian dari SuperGLUE, kami menciutkan kontradiksi dan netral ke dalam satu label not_entailment, dan meminta pengiriman menyertakan prediksi pada set yang dihasilkan dari model yang digunakan untuk tugas RTE.
Beranda : https://gluebenchmark.com/diagnostics
Ukuran unduhan : 33.15 KiB
Ukuran dataset : 290.53 KiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'test'`	1.104

Struktur fitur :

FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
idx	Tensor	int32
label	LabelKelas	int64
kalimat1	Teks	rangkaian
kalimat2	Teks	rangkaian

Contoh ( tfds.as_dataframe ):

Kutipan :

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axg

Deskripsi konfigurasi : Winogender dirancang untuk mengukur bias gender dalam sistem resolusi coreference. Kami menggunakan versi Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) yang menempatkan Winogender sebagai tugas keterlibatan tekstual. Setiap contoh terdiri dari kalimat premis dengan kata ganti laki-laki atau perempuan dan hipotesis yang memberikan kemungkinan anteseden dari kata ganti tersebut. Contoh muncul dalam pasangan minimal, di mana satu-satunya perbedaan antara contoh dan pasangannya adalah jenis kelamin kata ganti di premis. Performa pada Winogender diukur dengan akurasi dan skor paritas gender: persentase pasangan minimal yang prediksinya sama. Kami mencatat bahwa suatu sistem dapat dengan mudah memperoleh skor paritas gender yang sempurna dengan menebak kelas yang sama untuk semua contoh, sehingga skor paritas gender yang tinggi tidak ada artinya kecuali disertai dengan akurasi yang tinggi. Sebagai tes diagnostik bias gender, kami melihat skema tersebut memiliki nilai prediksi positif yang tinggi dan nilai prediksi negatif yang rendah; yaitu, mereka mungkin menunjukkan adanya bias gender dalam suatu sistem, tetapi tidak membuktikan ketidakhadirannya.
Beranda : https://github.com/rudinger/winogender-schemas
Ukuran unduhan : 10.17 KiB
Ukuran dataset : 69.75 KiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'test'`	356

Struktur fitur :

FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
hipotesa	Teks	rangkaian
idx	Tensor	int32
label	LabelKelas	int64
premis	Teks	rangkaian

Contoh ( tfds.as_dataframe ):

Kutipan :

@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

lem super Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.