super_glue

  • คำอธิบาย :

SuperGLUE ( https://super.gluebenchmark.com/ ) เป็นการวัดประสิทธิภาพแบบใหม่ที่มีสไตล์หลังจาก GLUE โดยมีชุดใหม่ของงานทำความเข้าใจภาษาที่ยากขึ้น ทรัพยากรที่ได้รับการปรับปรุง และลีดเดอร์บอร์ดสาธารณะใหม่

super_glue/boolq (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า : BoolQ (Boolean Questions, Clark et al., 2019a) เป็นงาน QA ที่แต่ละตัวอย่างประกอบด้วยข้อความสั้นๆ และคำถามใช่/ไม่ใช่เกี่ยวกับข้อความ คำถามมีให้โดยไม่ระบุชื่อและไม่ได้ร้องขอโดยผู้ใช้เครื่องมือค้นหาของ Google และหลังจากนั้นจับคู่กับย่อหน้าจากบทความ Wikipedia ที่มีคำตอบ เราประเมินด้วยความแม่นยำ

  • หน้าแรก : https://github.com/google-research-datasets/boolean-questions

  • ขนาดการดาวน์โหลด : 3.93 MiB

  • ขนาดชุดข้อมูล : 10.75 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 3,245
'train' 9,427
'validation' 3,270
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'passage': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
ทางเดิน ข้อความ สตริง
คำถาม ข้อความ สตริง
  • การอ้างอิง :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/cb

  • คำอธิบาย การกำหนดค่า: CommitmentBank (De Marneffe et al., 2019) คือคลังข้อความสั้นๆ ที่อย่างน้อยหนึ่งประโยคมีอนุประโยคฝังอยู่ แต่ละอนุประโยคที่ฝังไว้เหล่านี้มีคำอธิบายประกอบในระดับที่เราคาดหวังว่าบุคคลที่เขียนข้อความนั้นยึดมั่นในความจริงของอนุประโยคนั้น งานที่เกิดขึ้นถูกจัดกรอบเป็นข้อความสามชั้นในตัวอย่างที่ดึงมาจาก Wall Street Journal นวนิยายจาก British National Corpus และ Switchboard แต่ละตัวอย่างประกอบด้วยสมมติฐานที่มีอนุประโยคที่ฝังอยู่ และสมมติฐานที่สอดคล้องกันคือการดึงอนุประโยคนั้นออกมา เราใช้ชุดย่อยของข้อมูลที่มีข้อตกลงระหว่างผู้ทำหมายเหตุประกอบที่สูงกว่า 0.85 ข้อมูลไม่สมดุล (ตัวอย่างที่ค่อนข้างเป็นกลางน้อยกว่า) ดังนั้นเราจึงประเมินโดยใช้ความแม่นยำและ F1 โดยที่สำหรับ F1 หลายคลาส เราจะคำนวณค่าเฉลี่ยแบบไม่ถ่วงน้ำหนักของ F1 ต่อคลาส

  • หน้าแรก : https://github.com/mcdm/CommitmentBank

  • ขนาดการดาวน์โหลด : 73.71 KiB

  • ขนาดชุดข้อมูล : 229.28 KiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 250
'train' 250
'validation' 56
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
สมมติฐาน ข้อความ สตริง
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
หลักฐาน ข้อความ สตริง
  • การอ้างอิง :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/copa

  • คำอธิบาย การกำหนดค่า: ชุดข้อมูล The Choice Of Plausible Alternatives (COPA, Roemmele et al., 2011) เป็นงานการให้เหตุผลเชิงสาเหตุซึ่งระบบจะได้รับประโยคสมมติฐานและทางเลือกที่เป็นไปได้สองทาง ระบบจะต้องเลือกทางเลือกที่มีความสัมพันธ์เชิงเหตุและผลที่เป็นไปได้มากกว่ากับสมมติฐาน วิธีการที่ใช้ในการสร้างทางเลือกทำให้มั่นใจได้ว่างานนั้นต้องใช้เหตุผลเชิงสาเหตุในการแก้ปัญหา ตัวอย่างจัดการกับสาเหตุที่เป็นไปได้ทางเลือกหรือผลกระทบที่เป็นไปได้ทางเลือกของประโยคหลักฐาน พร้อมด้วยคำถามง่ายๆ ที่ทำให้ไม่กำกวมระหว่างสองประเภทอินสแตนซ์สำหรับโมเดล ตัวอย่างทั้งหมดจัดทำขึ้นด้วยมือและเน้นหัวข้อจากบล็อกออนไลน์และสารานุกรมเกี่ยวกับการถ่ายภาพ เราประเมินโดยใช้ความแม่นยำตามคำแนะนำของผู้เขียน

  • โฮมเพจ : http://people.ict.usc.edu/~gordon/copa.html

  • ขนาดการดาวน์โหลด : 42.96 KiB

  • ขนาดชุดข้อมูล : 196.00 KiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 500
'train' 400
'validation' 100
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'choice1': Text(shape=(), dtype=string),
    'choice2': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ทางเลือก1 ข้อความ สตริง
ทางเลือก2 ข้อความ สตริง
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
หลักฐาน ข้อความ สตริง
คำถาม ข้อความ สตริง
  • การอ้างอิง :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/multirc

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลความเข้าใจในการอ่านหลายประโยค (MultiRC, Khashabi et al., 2018) เป็นงานตอบคำถามจริง/เท็จ แต่ละตัวอย่างประกอบด้วยย่อหน้าบริบท คำถามเกี่ยวกับย่อหน้านั้น และรายการคำตอบที่เป็นไปได้สำหรับคำถามนั้นซึ่งต้องระบุว่าเป็นจริงหรือเท็จ คำถาม-คำตอบ (QA) เป็นปัญหายอดนิยมที่มีชุดข้อมูลจำนวนมาก เราใช้ MultiRC เนื่องจากคุณสมบัติที่ต้องการหลายประการ: (i) คำถามแต่ละข้อสามารถมีคำตอบที่ถูกต้องได้หลายข้อ ดังนั้น คู่คำถาม-คำตอบแต่ละคู่จะต้องได้รับการประเมินโดยไม่ขึ้นกับคู่อื่นๆ (ii) คำถามได้รับการออกแบบให้ตอบคำถามแต่ละข้อ ดึงข้อเท็จจริงจากประโยคบริบทหลายประโยค และ (iii) รูปแบบคู่คำถาม-คำตอบตรงกับ API ของงาน SuperGLUE อื่นๆ มากกว่า QA แบบแยกตามช่วง ย่อหน้ามาจากเจ็ดโดเมน ได้แก่ ข่าว นวนิยาย และข้อความทางประวัติศาสตร์

  • โฮมเพจ : https://cogcomp.org/multirc/

  • ขนาดการดาวน์โหลด : 1.06 MiB

  • ขนาดชุดข้อมูล : 70.39 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 9,693
'train' 27,243
'validation' 4,848
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'idx': FeaturesDict({
        'answer': int32,
        'paragraph': int32,
        'question': int32,
    }),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
คำตอบ ข้อความ สตริง
idx คุณสมบัติDict
รหัส/คำตอบ เทนเซอร์ int32
idx/ย่อหน้า เทนเซอร์ int32
idx/คำถาม เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
ย่อหน้า ข้อความ สตริง
คำถาม ข้อความ สตริง
  • การอ้างอิง :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/บันทึก

  • คำอธิบาย การกำหนดค่า : (Reading Comprehension with Commonsense Reasoning Dataset, Zhang et al., 2018) เป็นงาน QA แบบปรนัย แต่ละตัวอย่างประกอบด้วยบทความข่าวและคำถามแบบโคลสอัพเกี่ยวกับบทความที่มีการปิดบังข้อมูลหนึ่งรายการ ระบบจะต้องทำนายเอนทิตีที่ถูกปกปิดจากรายการที่ระบุของเอนทิตีที่เป็นไปได้ในเนื้อเรื่องที่ให้มา โดยที่เอนทิตีเดียวกันอาจแสดงโดยใช้รูปแบบพื้นผิวที่แตกต่างกันหลายแบบ ซึ่งทั้งหมดนี้ถือว่าถูกต้อง บทความนำมาจาก CNN และ Daily Mail หลังจากงานต้นฉบับ เราประเมินด้วย F1 ระดับโทเค็นสูงสุด (มากกว่าการกล่าวถึงทั้งหมด) และการจับคู่แบบตรงทั้งหมด (EM)

  • หน้าแรก : https://sheng-z.github.io/ReCoRD-explorer/

  • ขนาดการดาวน์โหลด : 49.36 MiB

  • ขนาดชุดข้อมูล : 166.40 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่ (ทดสอบ ตรวจสอบ) เฉพาะเมื่อ shuffle_files=False (รถไฟ)

  • แยก :

แยก ตัวอย่าง
'test' 10,000
'train' 100,730
'validation' 10,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=string)),
    'entities': Sequence(Text(shape=(), dtype=string)),
    'idx': FeaturesDict({
        'passage': int32,
        'query': int32,
    }),
    'passage': Text(shape=(), dtype=string),
    'query': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
คำตอบ ลำดับ (ข้อความ) (ไม่มี,) สตริง
เอนทิตี ลำดับ (ข้อความ) (ไม่มี,) สตริง
idx คุณสมบัติDict
idx/ทาง เทนเซอร์ int32
idx/สอบถาม เทนเซอร์ int32
ทางเดิน ข้อความ สตริง
สอบถาม ข้อความ สตริง
  • การอ้างอิง :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/rte

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูล Recognizing Textual Entailment (RTE) มาจากชุดของการแข่งขันประจำปีเกี่ยวกับ Textual Entailment ซึ่งเป็นปัญหาในการทำนายว่าประโยคหลักฐานที่กำหนดเกี่ยวข้องกับประโยคสมมติฐานที่กำหนดหรือไม่ (หรือที่เรียกว่าการอนุมานภาษาธรรมชาติ, NLI) ก่อนหน้านี้ RTE รวมอยู่ใน GLUE และเราใช้ข้อมูลและรูปแบบเดิมเช่นเดิม: เราผสานข้อมูลจาก RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) และ RTE5 (Bentivogli et al., 2009) ชุดข้อมูลทั้งหมดจะถูกรวมเข้าด้วยกันและแปลงเป็นการจัดหมวดหมู่แบบสองคลาส: entailment และ not_entailment ในบรรดางาน GLUE ทั้งหมดนั้น RTE เป็นหนึ่งในงานที่ได้รับประโยชน์จากการถ่ายโอนการเรียนรู้มากที่สุด โดยก้าวกระโดดจากประสิทธิภาพที่ใกล้เคียงกับโอกาสสุ่ม (~56%) ณ เวลาที่เปิดตัว GLUE เป็นความแม่นยำ 85% (Liu et al., 2019c) ที่ เวลาที่เขียน เมื่อคำนึงถึงช่องว่างแปดจุดที่เกี่ยวกับประสิทธิภาพของมนุษย์ อย่างไรก็ตาม งานดังกล่าวยังไม่ได้รับการแก้ไขด้วยเครื่องจักร และเราคาดว่าช่องว่างที่เหลือจะยากที่จะปิดลง

  • หน้าแรก : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • ขนาดการดาวน์โหลด : 733.32 KiB

  • ขนาดชุดข้อมูล : 2.15 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 3,000
'train' 2,490
'validation' 277
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
สมมติฐาน ข้อความ สตริง
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
หลักฐาน ข้อความ สตริง
  • การอ้างอิง :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/วิค

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูล Word-in-Context (WiC, Pilehvar และ Camacho-Collados, 2019) รองรับงานแก้ความกำกวมของคำที่ส่งเป็นการจำแนกประเภทไบนารีเหนือคู่ประโยค กำหนดประโยคสองประโยคและคำหลายคำ (ความหมายกำกวม) ที่ปรากฏในทั้งสองประโยค งานคือการพิจารณาว่าคำนั้นถูกใช้ด้วยความหมายเดียวกันในทั้งสองประโยคหรือไม่ ประโยคมาจาก WordNet (Miller, 1995), VerbNet (Schuler, 2005) และ Wiktionary เราติดตามงานต้นฉบับและประเมินโดยใช้ความถูกต้อง

  • หน้าแรก : https://pilehvar.github.io/wic/

  • ขนาดการดาวน์โหลด : 386.93 KiB

  • ขนาดชุดข้อมูล : 1.67 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 1,400
'train' 5,428
'validation' 638
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'end1': int32,
    'end2': int32,
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
    'start1': int32,
    'start2': int32,
    'word': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
จบ1 เทนเซอร์ int32
สิ้นสุด2 เทนเซอร์ int32
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
ประโยค1 ข้อความ สตริง
ประโยค2 ข้อความ สตริง
เริ่มต้น1 เทนเซอร์ int32
เริ่มต้น2 เทนเซอร์ int32
คำ ข้อความ สตริง
  • การอ้างอิง :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc

  • คำอธิบาย การกำหนดค่า: Winograd Schema Challenge (WSC, Levesque et al., 2012) เป็นงานอ่านจับใจความที่ระบบต้องอ่านประโยคที่มีสรรพนามและเลือกผู้อ้างอิงของสรรพนามนั้นจากรายการตัวเลือก เมื่อพิจารณาถึงความยากลำบากของงานนี้และ headroom ที่เหลืออยู่ เราได้รวม WSC ไว้ใน SuperGLUE และสร้างชุดข้อมูลใหม่ในรูปแบบ coreference งานนี้ถูกโยนให้เป็นปัญหาการจำแนกประเภทไบนารี ซึ่งตรงข้ามกับ N-ปรนัย เพื่อแยกความสามารถของแบบจำลองในการทำความเข้าใจการเชื่อมโยงแกนกลางภายในประโยค ซึ่งตรงข้ามกับกลวิธีอื่นๆ ที่อาจเข้ามาเล่นในเงื่อนไขปรนัย ด้วยเหตุนี้ เราจึงสร้างการแบ่งแยกด้วยคลาสส่วนใหญ่เชิงลบ 65% ในชุดการตรวจสอบ ซึ่งสะท้อนถึงการกระจายของชุดการทดสอบที่ซ่อนอยู่ และคลาสเชิงลบ 52% ในชุดการฝึกอบรม ตัวอย่างการฝึกอบรมและการตรวจสอบนั้นดึงมาจากชุดข้อมูล Winograd Schema ดั้งเดิม (Levesque et al., 2012) รวมถึงที่เผยแพร่โดย Commonsense Reasoning ซึ่งเป็นองค์กรในเครือ ตัวอย่างการทดสอบได้มาจากหนังสือนิยายและได้รับการแบ่งปันกับเราโดยผู้เขียนชุดข้อมูลต้นฉบับ ก่อนหน้านี้ เวอร์ชันของ WSC แปลงใหม่เป็น NLI ซึ่งรวมอยู่ใน GLUE หรือที่เรียกว่า WNLI ไม่มีความคืบหน้าอย่างมากใน WNLI โดยมีการส่งจำนวนมากที่เลือกที่จะส่งเฉพาะการคาดคะเนระดับเสียงข้างมาก WNLI นั้นยากเป็นพิเศษเนื่องจากการแยกขบวน/การพัฒนาของฝ่ายตรงข้าม: ประโยคหลักฐานที่ปรากฏในชุดการฝึกบางครั้งปรากฏในชุดการพัฒนาโดยมีสมมติฐานที่แตกต่างกันและป้ายกำกับที่พลิกกลับ หากระบบจดจำชุดการฝึกโดยไม่มีการสรุปอย่างมีความหมาย ซึ่งเป็นเรื่องง่ายเนื่องจากชุดการฝึกมีขนาดเล็ก ระบบอาจทำได้ต่ำกว่าโอกาสในการพัฒนาชุดมาก เราลบการออกแบบที่เป็นปฏิปักษ์นี้ใน WSC เวอร์ชัน SuperGLUE โดยตรวจสอบให้แน่ใจว่าไม่มีการแชร์ประโยคระหว่างการฝึกอบรม การตรวจสอบ และชุดการทดสอบ

อย่างไรก็ตาม ชุดการตรวจสอบความถูกต้องและการทดสอบมาจากโดเมนที่แตกต่างกัน โดยชุดการตรวจสอบความถูกต้องประกอบด้วยตัวอย่างที่กำกวม เช่น การเปลี่ยนคำวลีที่ไม่ใช่คำนามหนึ่งคำจะเปลี่ยนการขึ้นต่อกันของแกนกลางในประโยค ชุดทดสอบประกอบด้วยตัวอย่างที่ตรงไปตรงมามากขึ้นเท่านั้น โดยมีวลีนามจำนวนมาก (และมีตัวเลือกมากขึ้นสำหรับแบบจำลอง) แต่มีความกำกวมต่ำถึงไม่มีเลย

แยก ตัวอย่าง
'test' 146
'train' 554
'validation' 104
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
span1_index เทนเซอร์ int32
span1_text ข้อความ สตริง
span2_index เทนเซอร์ int32
span2_text ข้อความ สตริง
ข้อความ ข้อความ สตริง
  • การอ้างอิง :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.fixed

  • คำอธิบาย การกำหนดค่า: Winograd Schema Challenge (WSC, Levesque et al., 2012) เป็นงานอ่านจับใจความที่ระบบต้องอ่านประโยคที่มีสรรพนามและเลือกผู้อ้างอิงของสรรพนามนั้นจากรายการตัวเลือก เมื่อพิจารณาถึงความยากลำบากของงานนี้และ headroom ที่เหลืออยู่ เราได้รวม WSC ไว้ใน SuperGLUE และสร้างชุดข้อมูลใหม่ในรูปแบบ coreference งานนี้ถูกโยนให้เป็นปัญหาการจำแนกประเภทไบนารี ซึ่งตรงข้ามกับ N-ปรนัย เพื่อแยกความสามารถของแบบจำลองในการทำความเข้าใจการเชื่อมโยงแกนกลางภายในประโยค ซึ่งตรงข้ามกับกลวิธีอื่นๆ ที่อาจเข้ามาเล่นในเงื่อนไขปรนัย ด้วยเหตุนี้ เราจึงสร้างการแบ่งแยกด้วยคลาสส่วนใหญ่เชิงลบ 65% ในชุดการตรวจสอบ ซึ่งสะท้อนถึงการกระจายของชุดการทดสอบที่ซ่อนอยู่ และคลาสเชิงลบ 52% ในชุดการฝึกอบรม ตัวอย่างการฝึกอบรมและการตรวจสอบนั้นดึงมาจากชุดข้อมูล Winograd Schema ดั้งเดิม (Levesque et al., 2012) รวมถึงที่เผยแพร่โดย Commonsense Reasoning ซึ่งเป็นองค์กรในเครือ ตัวอย่างการทดสอบได้มาจากหนังสือนิยายและได้รับการแบ่งปันกับเราโดยผู้เขียนชุดข้อมูลต้นฉบับ ก่อนหน้านี้ เวอร์ชันของ WSC แปลงใหม่เป็น NLI ซึ่งรวมอยู่ใน GLUE หรือที่เรียกว่า WNLI ไม่มีความคืบหน้าอย่างมากใน WNLI โดยมีการส่งจำนวนมากที่เลือกที่จะส่งเฉพาะการคาดคะเนระดับเสียงข้างมาก WNLI นั้นยากเป็นพิเศษเนื่องจากการแยกขบวน/การพัฒนาของฝ่ายตรงข้าม: ประโยคหลักฐานที่ปรากฏในชุดการฝึกบางครั้งปรากฏในชุดการพัฒนาโดยมีสมมติฐานที่แตกต่างกันและป้ายกำกับที่พลิกกลับ หากระบบจดจำชุดการฝึกโดยไม่มีการสรุปอย่างมีความหมาย ซึ่งเป็นเรื่องง่ายเนื่องจากชุดการฝึกมีขนาดเล็ก ระบบอาจทำได้ต่ำกว่าโอกาสในการพัฒนาชุดมาก เราลบการออกแบบที่เป็นปฏิปักษ์นี้ใน WSC เวอร์ชัน SuperGLUE โดยตรวจสอบให้แน่ใจว่าไม่มีการแชร์ประโยคระหว่างการฝึกอบรม การตรวจสอบ และชุดการทดสอบ

อย่างไรก็ตาม ชุดการตรวจสอบความถูกต้องและการทดสอบมาจากโดเมนที่แตกต่างกัน โดยชุดการตรวจสอบความถูกต้องประกอบด้วยตัวอย่างที่กำกวม เช่น การเปลี่ยนคำวลีที่ไม่ใช่คำนามหนึ่งคำจะเปลี่ยนการขึ้นต่อกันของแกนกลางในประโยค ชุดทดสอบประกอบด้วยตัวอย่างที่ตรงไปตรงมามากขึ้นเท่านั้น โดยมีวลีนามจำนวนมาก (และมีตัวเลือกมากขึ้นสำหรับแบบจำลอง) แต่มีความกำกวมต่ำถึงไม่มีเลย

เวอร์ชันนี้แก้ไขปัญหาที่ช่วงไม่ใช่สตริงย่อยของข้อความ

แยก ตัวอย่าง
'test' 146
'train' 554
'validation' 104
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
span1_index เทนเซอร์ int32
span1_text ข้อความ สตริง
span2_index เทนเซอร์ int32
span2_text ข้อความ สตริง
ข้อความ ข้อความ สตริง
  • การอ้างอิง :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axb

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลการวินิจฉัยที่สร้างขึ้นโดยผู้เชี่ยวชาญซึ่งจะทดสอบโมเดลโดยอัตโนมัติสำหรับความรู้ด้านภาษาศาสตร์ สามัญสำนึก และโลกที่หลากหลายโดยอัตโนมัติ แต่ละตัวอย่างในการวินิจฉัยที่ครอบคลุมนี้เป็นคู่ประโยคที่มีป้ายกำกับความสัมพันธ์แบบสามทาง (ความเกี่ยวข้อง ความเป็นกลาง หรือความขัดแย้ง) และแท็กด้วยป้ายกำกับที่บ่งชี้ปรากฏการณ์ที่แสดงลักษณะความสัมพันธ์ระหว่างสองประโยค การส่งไปยังลีดเดอร์บอร์ด GLUE จำเป็นต้องรวมการคาดคะเนจากตัวแยกประเภท MultiNLI ของการส่งในชุดข้อมูลการวินิจฉัย และการวิเคราะห์ผลลัพธ์จะแสดงควบคู่ไปกับลีดเดอร์บอร์ดหลัก เนื่องจากงานวินิจฉัยที่ครอบคลุมกว้างนี้พิสูจน์แล้วว่าเป็นเรื่องยากสำหรับรุ่นยอดนิยม เราจึงเก็บงานดังกล่าวไว้ใน SuperGLUE อย่างไรก็ตาม เนื่องจาก MultiNLI ไม่ใช่ส่วนหนึ่งของ SuperGLUE เราจึงยุบความขัดแย้งและเป็นกลางลงในป้ายกำกับ not_entailment เดียว และขอให้ผลงานที่ส่งรวมการคาดคะเนชุดผลลัพธ์จากโมเดลที่ใช้สำหรับงาน RTE

  • หน้าแรก : https://gluebenchmark.com/diagnostics

  • ขนาดการดาวน์โหลด : 33.15 KiB

  • ขนาดชุดข้อมูล : 290.53 KiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 1,104
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
ประโยค1 ข้อความ สตริง
ประโยค2 ข้อความ สตริง
  • การอ้างอิง :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axg

  • คำอธิบาย การกำหนดค่า: Winogender ได้รับการออกแบบมาเพื่อวัดอคติทางเพศในระบบความละเอียดของแกนกลาง เราใช้เวอร์ชัน Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) ที่แปลง Winogender เป็นงานแสดงข้อความ แต่ละตัวอย่างประกอบด้วยประโยคแสดงหลักฐานที่มีคำสรรพนามเป็นเพศชายหรือเพศหญิง และสมมติฐานที่ให้คำนำหน้าที่เป็นไปได้ของคำสรรพนาม ตัวอย่างเกิดขึ้นในคู่ที่น้อยที่สุด โดยที่ข้อแตกต่างเพียงอย่างเดียวระหว่างตัวอย่างและคู่ของมันคือเพศของคำสรรพนามในหลักฐาน ประสิทธิภาพของ Winoender วัดได้จากทั้งความแม่นยำและคะแนนความเท่าเทียมทางเพศ: เปอร์เซ็นต์ของคู่ขั้นต่ำที่การคาดคะเนเหมือนกัน เราทราบว่าระบบสามารถได้รับคะแนนความเท่าเทียมกันทางเพศที่สมบูรณ์แบบได้เล็กน้อยโดยการเดากลุ่มเดียวกันสำหรับตัวอย่างทั้งหมด ดังนั้นคะแนนความเท่าเทียมทางเพศที่สูงจะไม่มีความหมายเว้นแต่จะมีความแม่นยำสูง ในฐานะที่เป็นการทดสอบวินิจฉัยอคติทางเพศ เรามองว่าสกีมามีค่าการทำนายเชิงบวกสูงและค่าการทำนายเชิงลบต่ำ นั่นคือ พวกเขาอาจแสดงให้เห็นถึงการมีอคติทางเพศในระบบ แต่ไม่สามารถพิสูจน์ได้ว่าไม่มีอยู่จริง

  • โฮมเพจ : https://github.com/rudinger/winoender-schemas

  • ขนาดการดาวน์โหลด : 10.17 KiB

  • ขนาดชุดข้อมูล : 69.75 KiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 356
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
สมมติฐาน ข้อความ สตริง
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
หลักฐาน ข้อความ สตริง
  • การอ้างอิง :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.