ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

super_glue

  • รายละเอียด:

superglue ( https://super.gluebenchmark.com/ ) เป็นมาตรฐานใหม่สไตล์หลังจากกาวกับชุดใหม่ของภาษาการทำความเข้าใจงานที่ยากมากขึ้นทรัพยากรที่ดีขึ้นและลีดเดอร์สาธารณะใหม่

  • รหัสที่มา: tfds.text.SuperGlue

  • รุ่น:

    • 1.0.2 (เริ่มต้น): ไม่มีบันทึกประจำรุ่น
  • ขนาดชุด: Unknown size

  • ออโต้แคช ( เอกสาร ): ไม่ทราบ

  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • รูป ( tfds.show_examples ): ไม่ได้รับการสนับสนุน

super_glue/boolq (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย Config: BoolQ (. คำถามบูลีนคลาร์ก, et al, 2019a) เป็นงาน QA ที่แต่ละตัวอย่างประกอบด้วยทางเดินในระยะสั้นและใช่ / คำถามเกี่ยวกับทางเดินไม่มี คำถามนี้จัดทำขึ้นโดยไม่เปิดเผยตัวตนและไม่ได้ร้องขอโดยผู้ใช้เครื่องมือค้นหาของ Google จากนั้นจึงจับคู่กับย่อหน้าจากบทความ Wikipedia ที่มีคำตอบ ตามงานต้นฉบับเราประเมินด้วยความถูกต้อง

  • โฮมเพจ: https://github.com/google-research-datasets/boolean-questions

  • ขนาดการดาวน์โหลด: 3.93 MiB

  • แยก:

แยก ตัวอย่าง
'test' 3,245
'train' 9,427
'validation' 3,270
  • คุณสมบัติ:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'passage': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/cb

  • คำอธิบายการกำหนดค่าการ CommitmentBank (. De Marneffe, et al, 2019) เป็นคลังของข้อความสั้น ๆ ที่อย่างน้อยหนึ่งประโยคที่มีคำสั่งที่ฝังตัว อนุประโยคที่ฝังไว้แต่ละข้อเหล่านี้มีคำอธิบายประกอบในระดับที่เราคาดหวังว่าบุคคลที่เขียนข้อความนั้นมีความมุ่งมั่นที่จะปฏิบัติตามความจริงของวรรคนั้น งานที่เป็นผลถูกจัดวางเป็นเนื้อหาข้อความสามระดับในตัวอย่างที่ดึงมาจาก Wall Street Journal นิยายจาก British National Corpus และ Switchboard แต่ละตัวอย่างประกอบด้วยหลักฐานที่มีอนุประโยคที่ฝังไว้ และสมมติฐานที่สอดคล้องกันคือการแยกส่วนของอนุประโยคนั้น เราใช้ชุดย่อยของข้อมูลที่มีข้อตกลงระหว่างตัวบันทึกย่อที่สูงกว่า 0.85 ข้อมูลไม่สมดุล (ตัวอย่างที่เป็นกลางค่อนข้างน้อยกว่า) ดังนั้นเราจึงประเมินโดยใช้ความแม่นยำและ F1 โดยที่ F1 แบบหลายคลาส เราจะคำนวณค่าเฉลี่ยแบบไม่ถ่วงน้ำหนักของ F1 ต่อคลาส

  • โฮมเพจ: https://github.com/mcdm/CommitmentBank

  • ขนาดการดาวน์โหลด: 73.71 KiB

  • แยก:

แยก ตัวอย่าง
'test' 250
'train' 250
'validation' 56
  • คุณสมบัติ:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/โคปา

  • คำอธิบาย Config: การเลือกที่เป็นไปได้ทางเลือก (. โคปา Roemmele et al, 2011) ชุดข้อมูลเป็นงานที่สาเหตุเหตุผลที่ระบบจะได้รับประโยคสถานที่ตั้งและสองทางเลือกที่เป็นไปได้ ระบบต้องเลือกทางเลือกที่มีความสัมพันธ์เชิงสาเหตุกับหลักฐานที่สมเหตุสมผลมากกว่า วิธีการที่ใช้สำหรับการสร้างทางเลือกช่วยให้มั่นใจได้ว่างานนั้นต้องใช้เหตุผลเชิงสาเหตุในการแก้ปัญหา ตัวอย่างที่เกี่ยวข้องกับสาเหตุที่เป็นไปได้อื่น ๆ หรือผลที่เป็นไปได้อื่น ๆ ของประโยคสมมติฐาน พร้อมด้วยคำถามง่ายๆ ที่อธิบายความแตกต่างระหว่างอินสแตนซ์ทั้งสองประเภทสำหรับโมเดล ตัวอย่างทั้งหมดเป็นงานฝีมือและเน้นหัวข้อจากบล็อกออนไลน์และสารานุกรมเกี่ยวกับการถ่ายภาพ ตามคำแนะนำของผู้เขียน เราประเมินโดยใช้ความแม่นยำ

  • โฮมเพจ: http://people.ict.usc.edu/~gordon/copa.html

  • ขนาดการดาวน์โหลด: 42.96 KiB

  • แยก:

แยก ตัวอย่าง
'test' 500
'train' 400
'validation' 100
  • คุณสมบัติ:
FeaturesDict({
    'choice1': Text(shape=(), dtype=tf.string),
    'choice2': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/multirc

  • คำอธิบาย Config: (. MultiRC, Khashabi et al, 2018) หลายประโยคที่อ่านเพื่อความเข้าใจชุดข้อมูลที่เป็นเท็จงานจริง / คำถามตอบ แต่ละตัวอย่างประกอบด้วยย่อหน้าบริบท คำถามเกี่ยวกับย่อหน้านั้น และรายการคำตอบที่เป็นไปได้สำหรับคำถามนั้นซึ่งต้องระบุว่าจริงหรือเท็จ การตอบคำถาม (QA) เป็นปัญหายอดนิยมกับชุดข้อมูลจำนวนมาก เราใช้ MultiRC เนื่องจากมีคุณสมบัติที่พึงประสงค์หลายประการ: (i) คำถามแต่ละข้อสามารถมีคำตอบที่ถูกต้องได้หลายคำตอบ ดังนั้นแต่ละคู่ของคำถาม-คำตอบจะต้องได้รับการประเมินโดยไม่ขึ้นกับคู่อื่นๆ (ii) คำถามได้รับการออกแบบมาเพื่อให้การตอบคำถามแต่ละข้อต้องการ ดึงข้อเท็จจริงจากประโยคบริบทหลายประโยค และ (iii) รูปแบบคู่ของคำถาม-คำตอบ ตรงกับ API ของงาน SuperGLUE อื่น ๆ มากกว่า QA แบบแยกตามช่วง ย่อหน้ามาจากเจ็ดโดเมนรวมถึงข่าว นิยาย และข้อความทางประวัติศาสตร์

  • โฮมเพจ: https://cogcomp.org/multirc/

  • ขนาดการดาวน์โหลด: 1.06 MiB

  • แยก:

แยก ตัวอย่าง
'test' 9,693
'train' 27,243
'validation' 4,848
  • คุณสมบัติ:
FeaturesDict({
    'answer': Text(shape=(), dtype=tf.string),
    'idx': FeaturesDict({
        'answer': tf.int32,
        'paragraph': tf.int32,
        'question': tf.int32,
    }),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/บันทึก

  • คำอธิบาย Config: (. เข้าใจในการอ่านด้วยเหตุผล commonsense ชุดข้อมูล, Zhang et al, 2018) เป็นงาน QA แบบปรนัย แต่ละตัวอย่างประกอบด้วยบทความข่าวและคำถามสไตล์ Cloze เกี่ยวกับบทความที่มีการปกปิดเอนทิตีหนึ่งรายการ ระบบต้องคาดการณ์เอนทิตีที่ปิดบังจากรายการที่ระบุของเอนทิตีที่เป็นไปได้ในข้อความที่ให้ไว้ ซึ่งเอนทิตีเดียวกันอาจแสดงโดยใช้รูปแบบพื้นผิวที่แตกต่างกันหลายแบบ ซึ่งทั้งหมดถือว่าถูกต้อง บทความนำมาจาก CNN และ Daily Mail จากงานต้นฉบับ เราประเมินด้วย F1 ระดับโทเค็นสูงสุด (จากการกล่าวถึงทั้งหมด) และการจับคู่แบบตรงทั้งหมด (EM)

  • โฮมเพจ: https://sheng-z.github.io/ReCoRD-explorer/

  • ขนาดการดาวน์โหลด: 49.36 MiB

  • แยก:

แยก ตัวอย่าง
'test' 10,000
'train' 100,730
'validation' 10,000
  • คุณสมบัติ:
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=tf.string)),
    'entities': Sequence(Text(shape=(), dtype=tf.string)),
    'idx': FeaturesDict({
        'passage': tf.int32,
        'query': tf.int32,
    }),
    'passage': Text(shape=(), dtype=tf.string),
    'query': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/rte

  • คำอธิบายการกำหนดค่าการตระหนักถึงข้อความ entailment (RTE) ชุดข้อมูลมาจากชุดของการแข่งขันประจำปีเกี่ยวกับ entailment ต้นฉบับเดิมปัญหาในการคาดการณ์ว่าประโยคสมมติฐานที่กำหนดรายละเอียดประโยคสมมติฐานที่กำหนด (หรือที่เรียกว่าการอนุมานภาษาธรรมชาติ NLI) ก่อนหน้านี้ RTE ถูกรวมอยู่ใน GLUE และเราใช้ข้อมูลและรูปแบบเหมือนเดิม: เราผสานข้อมูลจาก RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) และ RTE5 (Bentivogli et al., 2009) ชุดข้อมูลทั้งหมดจะถูกรวมและแปลงเป็นการจำแนกประเภทสองคลาส: entailment และ not_entailment จากงาน GLUE ทั้งหมด RTE เป็นหนึ่งในงานที่ได้รับประโยชน์จากการถ่ายโอนการเรียนรู้มากที่สุด โดยกระโดดจากประสิทธิภาพที่มีโอกาสสุ่มเกือบ (~56%) ในช่วงเวลาของการเปิดตัว GLUE เป็นความแม่นยำ 85% (Liu et al., 2019c) ที่ เวลาในการเขียน เนื่องจากช่องว่างแปดจุดที่เกี่ยวกับประสิทธิภาพของมนุษย์ งานยังไม่ได้รับการแก้ไขโดยเครื่องจักร และเราคาดว่าช่องว่างที่เหลือจะยากที่จะปิด

  • โฮมเพจ: https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • ขนาดการดาวน์โหลด: 733.32 KiB

  • แยก:

แยก ตัวอย่าง
'test' 3,000
'train' 2,490
'validation' 277
  • คุณสมบัติ:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wic

  • คำอธิบาย Config: คำพูดในบริบท (WIC, Pilehvar และ Camacho-Collados, 2019) การสนับสนุนชุดความรู้สึกคำแก้ความกำกวมงานหล่อเป็นจำแนกไบนารีกว่าคู่ประโยค ให้สองประโยคและคำ polysemous (sense-ambiguous) ที่ปรากฏในทั้งสองประโยค ภารกิจคือการพิจารณาว่าคำนั้นถูกใช้ด้วยความรู้สึกเดียวกันในทั้งสองประโยคหรือไม่ ประโยคต่างๆ มาจาก WordNet (Miller, 1995), VerbNet (Schuler, 2005) และ Wiktionary เราติดตามงานต้นฉบับและประเมินโดยใช้ความแม่นยำ

  • โฮมเพจ: https://pilehvar.github.io/wic/

  • ขนาดการดาวน์โหลด: 386.93 KiB

  • แยก:

แยก ตัวอย่าง
'test' 1,400
'train' 5,428
'validation' 638
  • คุณสมบัติ:
FeaturesDict({
    'end1': tf.int32,
    'end2': tf.int32,
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
    'start1': tf.int32,
    'start2': tf.int32,
    'word': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc

  • คำอธิบายการกำหนดค่าการ Winograd Schema ท้าทาย (. WSC, Levesque et al, 2012) เป็นงานที่เข้าใจในการอ่านที่ระบบต้องอ่านประโยคที่มีสรรพนามและเลือกอ้างอิงสรรพนามว่าจากรายการของตัวเลือก เนื่องจากความยากของงานนี้และ headroom ยังคงเหลืออยู่ เราได้รวม WSC ไว้ใน SuperGLUE และแปลงชุดข้อมูลใหม่ลงในแบบฟอร์มหลัก งานนี้ถูกมองว่าเป็นปัญหาการจำแนกประเภทไบนารี ซึ่งต่างจากตัวเลือก N-multiple เพื่อแยกความสามารถของโมเดลในการทำความเข้าใจลิงก์ coreference ภายในประโยค ซึ่งตรงข้ามกับกลยุทธ์อื่นๆ ที่อาจเข้ามามีบทบาทในเงื่อนไขแบบปรนัย ด้วยเหตุนี้ เราจึงสร้างการแบ่งกลุ่มที่มีระดับเสียงส่วนใหญ่เชิงลบ 65% ในชุดการตรวจสอบ ซึ่งสะท้อนถึงการกระจายของชุดการทดสอบที่ซ่อนอยู่ และระดับเชิงลบ 52% ในชุดการฝึก ตัวอย่างการฝึกอบรมและการตรวจสอบความถูกต้องดึงมาจากชุดข้อมูล Winograd Schema ดั้งเดิม (Levesque et al., 2012) รวมถึงข้อมูลที่เผยแพร่โดย Commonsense Reasoning ขององค์กรในเครือ ตัวอย่างการทดสอบมาจากหนังสือนิยายและได้รับการแบ่งปันกับเราโดยผู้เขียนชุดข้อมูลต้นฉบับ ก่อนหน้านี้ เวอร์ชันของ WSC ที่หล่อใหม่เป็น NLI ซึ่งรวมอยู่ใน GLUE หรือที่เรียกว่า WNLI ไม่มีความคืบหน้าอย่างมีนัยสำคัญใน WNLI โดยมีการส่งหลายรายการเลือกที่จะส่งเฉพาะการทำนายระดับส่วนใหญ่เท่านั้น WNLI ถูกทำให้ยากโดยเฉพาะอย่างยิ่งเนื่องจากการแบ่งแยกระหว่างการฝึกอบรม/การพัฒนาที่เป็นปฏิปักษ์: ประโยคสถานที่ตั้งที่ปรากฏในชุดการฝึกบางครั้งปรากฏในชุดการพัฒนาด้วยสมมติฐานที่แตกต่างกันและป้ายกำกับที่พลิกกลับ หากระบบจดจำชุดการฝึกโดยไม่มีการสรุปทั่วไปอย่างมีความหมาย ซึ่งง่ายเนื่องจากชุดการฝึกมีขนาดเล็ก ระบบอาจดำเนินการต่ำกว่าโอกาสในการพัฒนาชุดพัฒนามาก เราลบการออกแบบที่เป็นปฏิปักษ์นี้ใน WSC เวอร์ชัน SuperGLUE โดยตรวจสอบให้แน่ใจว่าไม่มีการแชร์ประโยคระหว่างการฝึก การตรวจสอบ และชุดการทดสอบ

อย่างไรก็ตาม ชุดตรวจสอบความถูกต้องและชุดทดสอบมาจากโดเมนที่แตกต่างกัน โดยชุดการตรวจสอบความถูกต้องประกอบด้วยตัวอย่างที่คลุมเครือ เช่น การเปลี่ยนคำที่ไม่ใช่คำนามหนึ่งคำจะเปลี่ยนการขึ้นต่อกันของแกนกลางในประโยค ชุดทดสอบประกอบด้วยตัวอย่างที่ตรงไปตรงมาเท่านั้น โดยมีคำนามวลีจำนวนมาก (และมีตัวเลือกสำหรับแบบจำลองมากขึ้น) แต่มีความคลุมเครือต่ำถึงไม่มีเลย

แยก ตัวอย่าง
'test' 146
'train' 554
'validation' 104
  • คุณสมบัติ:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.fixed

  • คำอธิบายการกำหนดค่าการ Winograd Schema ท้าทาย (. WSC, Levesque et al, 2012) เป็นงานที่เข้าใจในการอ่านที่ระบบต้องอ่านประโยคที่มีสรรพนามและเลือกอ้างอิงสรรพนามว่าจากรายการของตัวเลือก เนื่องจากความยากของงานนี้และ headroom ยังคงเหลืออยู่ เราได้รวม WSC ไว้ใน SuperGLUE และแปลงชุดข้อมูลใหม่ลงในแบบฟอร์มอ้างอิง งานนี้ถูกมองว่าเป็นปัญหาการจำแนกประเภทไบนารี ซึ่งต่างจากตัวเลือก N-multiple เพื่อแยกความสามารถของโมเดลในการทำความเข้าใจลิงก์ coreference ภายในประโยค ซึ่งตรงข้ามกับกลยุทธ์อื่นๆ ที่อาจเข้ามามีบทบาทในเงื่อนไขแบบปรนัย โดยคำนึงถึงสิ่งนั้น เราจึงสร้างการแบ่งกลุ่มที่มีระดับเสียงส่วนใหญ่เชิงลบ 65% ในชุดการตรวจสอบ ซึ่งสะท้อนถึงการกระจายของชุดการทดสอบที่ซ่อนอยู่ และระดับเชิงลบ 52% ในชุดการฝึก ตัวอย่างการฝึกอบรมและการตรวจสอบความถูกต้องดึงมาจากชุดข้อมูล Winograd Schema ดั้งเดิม (Levesque et al., 2012) รวมถึงข้อมูลที่เผยแพร่โดย Commonsense Reasoning ขององค์กรในเครือ ตัวอย่างการทดสอบมาจากหนังสือนิยายและได้รับการแบ่งปันกับเราโดยผู้เขียนชุดข้อมูลต้นฉบับ ก่อนหน้านี้ เวอร์ชันของ WSC ที่หล่อใหม่เป็น NLI ซึ่งรวมอยู่ใน GLUE หรือที่เรียกว่า WNLI ไม่มีความคืบหน้าอย่างมีนัยสำคัญใน WNLI โดยมีการส่งหลายรายการเลือกที่จะส่งเฉพาะการทำนายระดับส่วนใหญ่เท่านั้น WNLI ถูกทำให้ยากโดยเฉพาะอย่างยิ่งเนื่องจากการแบ่งแยกระหว่างการฝึกอบรม/การพัฒนาที่เป็นปฏิปักษ์: ประโยคสถานที่ตั้งที่ปรากฏในชุดการฝึกบางครั้งปรากฏในชุดการพัฒนาด้วยสมมติฐานที่แตกต่างกันและป้ายกำกับที่พลิกกลับ หากระบบจดจำชุดการฝึกโดยไม่มีการสรุปทั่วไปอย่างมีความหมาย ซึ่งง่ายเนื่องจากชุดการฝึกมีขนาดเล็ก ระบบอาจมีประสิทธิภาพต่ำกว่าชุดพัฒนาอย่างมาก เราลบการออกแบบที่เป็นปฏิปักษ์นี้ใน WSC เวอร์ชัน SuperGLUE โดยทำให้แน่ใจว่าไม่มีการแชร์ประโยคระหว่างการฝึก การตรวจสอบ และชุดการทดสอบ

อย่างไรก็ตาม ชุดตรวจสอบความถูกต้องและชุดทดสอบมาจากโดเมนที่แตกต่างกัน โดยชุดการตรวจสอบความถูกต้องประกอบด้วยตัวอย่างที่คลุมเครือ เช่น การเปลี่ยนคำที่ไม่ใช่วลีที่เป็นคำนามหนึ่งคำจะเปลี่ยนการขึ้นต่อกันของแกนกลางในประโยค ชุดทดสอบประกอบด้วยตัวอย่างที่ตรงไปตรงมาเท่านั้น โดยมีคำนามวลีจำนวนมาก (และมีตัวเลือกสำหรับแบบจำลองมากขึ้น) แต่มีความคลุมเครือน้อยถึงไม่มีเลย

เวอร์ชันนี้แก้ไขปัญหาที่ช่วงไม่ใช่สตริงย่อยของข้อความจริงๆ

แยก ตัวอย่าง
'test' 146
'train' 554
'validation' 104
  • คุณสมบัติ:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axb

  • คำอธิบาย Config: ผู้เชี่ยวชาญด้านการสร้างวินิจฉัยชุดที่ทดสอบแบบจำลองโดยอัตโนมัติเพื่อความหลากหลายของภาษา commonsense และความรู้โลก ตัวอย่างแต่ละตัวอย่างในการวินิจฉัยที่ครอบคลุมกว้างนี้คือคู่ประโยคที่มีป้ายกำกับความสัมพันธ์แบบสามทาง (ความเกี่ยวข้อง ความเป็นกลาง หรือความขัดแย้ง) และติดแท็กด้วยป้ายกำกับที่บ่งบอกถึงปรากฏการณ์ที่กำหนดความสัมพันธ์ระหว่างสองประโยค การส่งไปยังกระดานผู้นำ GLUE จะต้องรวมการคาดการณ์จากตัวแยกประเภท MultiNLI ของการส่งในชุดข้อมูลการวินิจฉัย และการวิเคราะห์ผลลัพธ์จะแสดงควบคู่ไปกับกระดานผู้นำหลัก เนื่องจากงานวินิจฉัยที่ครอบคลุมนี้ได้รับการพิสูจน์ว่ายากสำหรับรุ่นชั้นนำ เราจึงเก็บรักษาไว้ใน SuperGLUE อย่างไรก็ตาม เนื่องจาก MultiNLI ไม่ได้เป็นส่วนหนึ่งของ SuperGLUE เราจึงยุบความขัดแย้งและเป็นกลางให้เป็นป้ายกำกับ not_entailment เดียว และขอให้การส่งรวมการคาดการณ์ในชุดผลลัพธ์จากแบบจำลองที่ใช้สำหรับงาน RTE

  • โฮมเพจ: https://gluebenchmark.com/diagnostics

  • ขนาดการดาวน์โหลด: 33.15 KiB

  • แยก:

แยก ตัวอย่าง
'test' 1,104
  • คุณสมบัติ:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axg

  • Config คำอธิบาย: Winogender ถูกออกแบบมาเพื่อวัดอคติทางเพศในระบบความละเอียด coreference เราใช้ Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) ซึ่งทำให้ Winogender เป็นงานเขียนข้อความ แต่ละตัวอย่างประกอบด้วยประโยคตั้งต้นที่มีคำสรรพนามเพศชายหรือเพศหญิง และสมมติฐานที่ให้คำนำหน้าคำสรรพนามที่เป็นไปได้ ตัวอย่างเกิดขึ้นในคู่ขั้นต่ำ ซึ่งความแตกต่างเพียงอย่างเดียวระหว่างตัวอย่างและคู่คือเพศของคำสรรพนามในหลักฐาน ประสิทธิภาพของ Winogender วัดได้ทั้งความแม่นยำและคะแนนความเท่าเทียมกันทางเพศ: เปอร์เซ็นต์ของคู่ขั้นต่ำที่การคาดการณ์เหมือนกัน เราทราบว่าระบบสามารถรับคะแนนความเท่าเทียมกันทางเพศที่สมบูรณ์แบบได้เพียงเล็กน้อยโดยการเดาคลาสเดียวกันสำหรับตัวอย่างทั้งหมด ดังนั้นคะแนนความเท่าเทียมกันทางเพศที่สูงจะไม่มีความหมายเว้นแต่จะมีความแม่นยำสูง ในการทดสอบวินิจฉัยอคติทางเพศ เรามองว่าสคีมามีค่าพยากรณ์เชิงบวกสูงและค่าพยากรณ์เชิงลบต่ำ นั่นคือ พวกเขาอาจแสดงให้เห็นถึงการมีอยู่ของอคติทางเพศในระบบ แต่ไม่สามารถพิสูจน์ได้ว่าไม่มีอคติ

  • โฮมเพจ: https://github.com/rudinger/winogender-schemas

  • ขนาดการดาวน์โหลด: 10.17 KiB

  • แยก:

แยก ตัวอย่าง
'test' 356
  • คุณสมบัติ:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.