กาว

  • คำอธิบาย :

GLUE เกณฑ์มาตรฐานการประเมินความเข้าใจภาษาทั่วไป ( https://gluebenchmark.com/ ) คือชุดของทรัพยากรสำหรับการฝึกอบรม ประเมิน และวิเคราะห์ระบบความเข้าใจภาษาธรรมชาติ

กาว/โคล่า (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย Config : Corpus of Linguistic Acceptability ประกอบด้วยการตัดสินการยอมรับภาษาอังกฤษจากหนังสือและบทความวารสารเกี่ยวกับทฤษฎีภาษาศาสตร์ แต่ละตัวอย่างเป็นลำดับของคำที่มีคำอธิบายว่าเป็นประโยคภาษาอังกฤษตามหลักไวยากรณ์หรือไม่

  • หน้าแรก : https://nyu-mll.github.io/CoLA/

  • ขนาดการดาวน์โหลด : 368.14 KiB

  • ขนาดชุดข้อมูล : 965.49 KiB

  • แยก :

แยก ตัวอย่าง
'test' 1,063
'train' 8,551
'validation' 1,043
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
ประโยค ข้อความ สตริง
  • การอ้างอิง :
@article{warstadt2018neural,
  title={Neural Network Acceptability Judgments},
  author={Warstadt, Alex and Singh, Amanpreet and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1805.12471},
  year={2018}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/sst2

  • คำอธิบาย การกำหนดค่า : Stanford Sentiment Treebank ประกอบด้วยประโยคจากบทวิจารณ์ภาพยนตร์และคำอธิบายประกอบโดยมนุษย์เกี่ยวกับความรู้สึกของพวกเขา งานคือการทำนายความรู้สึกของประโยคที่กำหนด เราใช้การแบ่งชั้นเรียนแบบสองทาง (บวก/ลบ) และใช้ป้ายกำกับระดับประโยคเท่านั้น

  • หน้าแรก : https://nlp.stanford.edu/sentiment/index.html

  • ขนาดการดาวน์โหลด : 7.09 MiB

  • ขนาดชุดข้อมูล : 7.22 MiB

  • แยก :

แยก ตัวอย่าง
'test' 1,821
'train' 67,349
'validation' 872
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
ประโยค ข้อความ สตริง
  • การอ้างอิง :
@inproceedings{socher2013recursive,
  title={Recursive deep models for semantic compositionality over a sentiment treebank},
  author={Socher, Richard and Perelygin, Alex and Wu, Jean and Chuang, Jason and Manning, Christopher D and Ng, Andrew and Potts, Christopher},
  booktitle={Proceedings of the 2013 conference on empirical methods in natural language processing},
  pages={1631--1642},
  year={2013}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/mrpc

  • คำอธิบาย การกำหนดค่า: Microsoft Research Paraphrase Corpus (Dolan & Brockett, 2005) คือคลังข้อมูลของคู่ประโยคที่แยกโดยอัตโนมัติจากแหล่งข่าวออนไลน์ โดยมีคำอธิบายประกอบของมนุษย์ว่าประโยคในคู่นั้นมีความหมายเทียบเท่ากันหรือไม่

  • หน้าแรก : https://www.microsoft.com/en-us/download/details.aspx?id=52398

  • ขนาดการดาวน์โหลด : 1.43 MiB

  • ขนาดชุดข้อมูล : 1.74 MiB

  • แยก :

แยก ตัวอย่าง
'test' 1,725
'train' 3,668
'validation' 408
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
ประโยค1 ข้อความ สตริง
ประโยค2 ข้อความ สตริง
  • การอ้างอิง :
@inproceedings{dolan2005automatically,
  title={Automatically constructing a corpus of sentential paraphrases},
  author={Dolan, William B and Brockett, Chris},
  booktitle={Proceedings of the Third International Workshop on Paraphrasing (IWP2005)},
  year={2005}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/qqp

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูล Quora Question Pairs2 คือชุดของคู่คำถามจาก Quora เว็บไซต์ตอบคำถามในชุมชน ภารกิจคือการพิจารณาว่าคำถามคู่หนึ่งมีความหมายเทียบเท่ากันหรือไม่

  • หน้าแรก : https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

  • ขนาดการดาวน์โหลด : 39.76 MiB

  • ขนาดชุดข้อมูล : 150.37 MiB

  • แยก :

แยก ตัวอย่าง
'test' 390,965
'train' 363,846
'validation' 40,430
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'question1': Text(shape=(), dtype=string),
    'question2': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
คำถามที่ 1 ข้อความ สตริง
คำถามที่ 2 ข้อความ สตริง
  • การอ้างอิง :
@online{WinNT,
  author = {Iyer, Shankar and Dandekar, Nikhil and Csernai, Kornel},
  title = {First Quora Dataset Release: Question Pairs},
  year = 2017,
  url = {https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs},
  urldate = {2019-04-03}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/stsb

  • คำอธิบาย การกำหนดค่า : เกณฑ์มาตรฐานความคล้ายคลึงกันของข้อความเชิงความหมาย (Cer et al., 2017) คือชุดของคู่ประโยคที่ดึงมาจากหัวข้อข่าว คำบรรยายวิดีโอและรูปภาพ และข้อมูลการอนุมานด้วยภาษาธรรมชาติ แต่ละคู่มีคำอธิบายประกอบโดยมนุษย์โดยมีคะแนนความคล้ายคลึงกันตั้งแต่ 0 ถึง 5

  • หน้าแรก : http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark

  • ขนาดการดาวน์โหลด : 784.05 KiB

  • ขนาดชุดข้อมูล : 1.58 MiB

  • แยก :

แยก ตัวอย่าง
'test' 1,379
'train' 5,749
'validation' 1,500
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'idx': int32,
    'label': float32,
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
idx เทนเซอร์ int32
ฉลาก เทนเซอร์ ลอย32
ประโยค1 ข้อความ สตริง
ประโยค2 ข้อความ สตริง
  • การอ้างอิง :
@article{cer2017semeval,
  title={Semeval-2017 task 1: Semantic textual similarity-multilingual and cross-lingual focused evaluation},
  author={Cer, Daniel and Diab, Mona and Agirre, Eneko and Lopez-Gazpio, Inigo and Specia, Lucia},
  journal={arXiv preprint arXiv:1708.00055},
  year={2017}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/มลิ

  • คำอธิบาย การกำหนดค่า : Multi-Genre Natural Language Inference Corpus เป็นชุดรวมของคู่ประโยคที่มีคำอธิบายประกอบที่เป็นข้อความ กำหนดประโยคสมมติฐานและประโยคสมมติฐาน ภารกิจคือการทำนายว่าสมมติฐานเกี่ยวข้องกับสมมติฐาน (เงื่อนไข) ขัดแย้งกับสมมติฐาน (ความขัดแย้ง) หรือไม่ (เป็นกลาง) ประโยคหลักฐานรวบรวมจากแหล่งต่างๆ สิบแหล่ง รวมถึงคำพูดถอดความ เรื่องแต่ง และรายงานของรัฐบาล เราใช้ชุดทดสอบมาตรฐาน ซึ่งเราได้รับป้ายกำกับส่วนตัวจากผู้เขียน และประเมินทั้งส่วนที่ตรงกัน (ในโดเมน) และไม่ตรงกัน (ข้ามโดเมน) เรายังใช้และแนะนำคลังข้อมูล SNLI เป็นตัวอย่าง 550k ของข้อมูลการฝึกอบรมเสริม

  • โฮมเพจ : http://www.nyu.edu/projects/bowman/multinli/

  • ขนาดการดาวน์โหลด : 298.29 MiB

  • ขนาดชุดข้อมูล : 100.56 MiB

  • แยก :

แยก ตัวอย่าง
'test_matched' 9,796
'test_mismatched' 9,847
'train' 392,702
'validation_matched' 9,815
'validation_mismatched' 9,832
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
สมมติฐาน ข้อความ สตริง
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
หลักฐาน ข้อความ สตริง
  • การอ้างอิง :
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/mnli_mismatched

  • คำอธิบาย การกำหนดค่า : การตรวจสอบที่ไม่ตรงกันและแยกการทดสอบจาก MNLI ดู BuilderConfig "mnli" สำหรับข้อมูลเพิ่มเติม

  • โฮมเพจ : http://www.nyu.edu/projects/bowman/multinli/

  • ขนาดการดาวน์โหลด : 298.29 MiB

  • ขนาดชุดข้อมูล : 4.79 MiB

  • แยก :

แยก ตัวอย่าง
'test' 9,847
'validation' 9,832
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
สมมติฐาน ข้อความ สตริง
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
หลักฐาน ข้อความ สตริง
  • การอ้างอิง :
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/mnli_matched

  • คำอธิบาย การกำหนดค่า : การตรวจสอบความถูกต้องที่ตรงกันและการแยกการทดสอบจาก MNLI ดู BuilderConfig "mnli" สำหรับข้อมูลเพิ่มเติม

  • โฮมเพจ : http://www.nyu.edu/projects/bowman/multinli/

  • ขนาดการดาวน์โหลด : 298.29 MiB

  • ขนาดชุดข้อมูล : 4.58 MiB

  • แยก :

แยก ตัวอย่าง
'test' 9,796
'validation' 9,815
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
สมมติฐาน ข้อความ สตริง
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
หลักฐาน ข้อความ สตริง
  • การอ้างอิง :
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/qnli

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลการตอบคำถามของ Stanford เป็นชุดข้อมูลการตอบคำถามซึ่งประกอบด้วยคู่คำถาม-ย่อหน้า โดยที่ประโยคหนึ่งในย่อหน้า (ดึงมาจาก Wikipedia) มีคำตอบของคำถามที่สอดคล้องกัน (เขียนโดย annotator) เราแปลงงานเป็นการจำแนกคู่ประโยคโดยสร้างคู่ระหว่างคำถามแต่ละข้อและแต่ละประโยคในบริบทที่เกี่ยวข้อง และกรองคู่ที่มีการทับศัพท์ต่ำระหว่างคำถามและประโยคบริบท งานคือการพิจารณาว่าประโยคบริบทมีคำตอบสำหรับคำถามหรือไม่ เวอร์ชันดัดแปลงของงานดั้งเดิมนี้ลบข้อกำหนดที่โมเดลเลือกคำตอบที่ตรงทั้งหมด แต่ยังลบข้อสันนิษฐานที่ง่ายขึ้นที่ว่าคำตอบนั้นแสดงอยู่ในอินพุตเสมอ และการซ้อนทับศัพท์เป็นคำที่น่าเชื่อถือ

  • หน้าแรก : https://rajpurkar.github.io/SQuAD-explorer/

  • ขนาดการดาวน์โหลด : 10.14 MiB

  • ขนาดชุดข้อมูล : 32.99 MiB

  • แยก :

แยก ตัวอย่าง
'test' 5,463
'train' 104,743
'validation' 5,463
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'question': Text(shape=(), dtype=string),
    'sentence': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
คำถาม ข้อความ สตริง
ประโยค ข้อความ สตริง
  • การอ้างอิง :
@article{rajpurkar2016squad,
  title={Squad: 100,000+ questions for machine comprehension of text},
  author={Rajpurkar, Pranav and Zhang, Jian and Lopyrev, Konstantin and Liang, Percy},
  journal={arXiv preprint arXiv:1606.05250},
  year={2016}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/rte

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูล Recognizing Textual Entailment (RTE) มาจากชุดของความท้าทายเกี่ยวกับ Textual Entailment ประจำปี เรารวมข้อมูลจาก RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) และ RTE5 (Bentivogli et al., 2009)4 ตัวอย่างคือ สร้างจากข่าวและข้อความในวิกิพีเดีย เราแปลงชุดข้อมูลทั้งหมดเป็นแบบแยกสองคลาส โดยที่สำหรับชุดข้อมูลสามคลาส เรายุบความเป็นกลางและความขัดแย้งลงเป็นแบบไม่เกี่ยวข้องเพื่อความสอดคล้องกัน

  • หน้าแรก : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • ขนาดการดาวน์โหลด : 680.81 KiB

  • ขนาดชุดข้อมูล : 2.15 MiB

  • แยก :

แยก ตัวอย่าง
'test' 3,000
'train' 2,490
'validation' 277
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
ประโยค1 ข้อความ สตริง
ประโยค2 ข้อความ สตริง
  • การอ้างอิง :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/wli

  • คำอธิบาย การกำหนดค่า: Winograd Schema Challenge (Levesque et al., 2011) เป็นงานอ่านจับใจความที่ระบบต้องอ่านประโยคที่มีสรรพนามและเลือกการอ้างอิงของสรรพนามนั้นจากรายการตัวเลือก ตัวอย่างเหล่านี้สร้างขึ้นด้วยตนเองเพื่อป้องกันวิธีการทางสถิติอย่างง่าย: แต่ละตัวอย่างขึ้นอยู่กับข้อมูลเชิงบริบทที่มาจากคำหรือวลีเดียวในประโยค ในการแปลงปัญหาเป็นการจำแนกคู่ประโยค เราสร้างคู่ประโยคโดยแทนที่คำสรรพนามกำกวมด้วยตัวอ้างอิงที่เป็นไปได้แต่ละตัว ภารกิจคือการคาดเดาว่าประโยคที่มีคำสรรพนามแทนนั้นเกี่ยวข้องกับประโยคเดิมหรือไม่ เราใช้ชุดการประเมินขนาดเล็กซึ่งประกอบด้วยตัวอย่างใหม่ที่ได้มาจากหนังสือนิยายที่แบ่งปันแบบส่วนตัวโดยผู้เขียนของคลังต้นฉบับ แม้ว่าชุดการฝึกที่รวมไว้มีความสมดุลระหว่างสองคลาส ชุดทดสอบจะไม่สมดุลระหว่างกัน (65% ไม่ใช่สิ่งที่เกี่ยวข้อง) นอกจากนี้ เนื่องจากความคลาดเคลื่อนของข้อมูล ชุดการพัฒนาจึงเป็นปฏิปักษ์: บางครั้งสมมติฐานจะถูกแบ่งปันระหว่างตัวอย่างการฝึกอบรมและการพัฒนา ดังนั้นหากแบบจำลองจดจำตัวอย่างการฝึกอบรม พวกเขาจะทำนายป้ายกำกับที่ไม่ถูกต้องในตัวอย่างชุดการพัฒนาที่สอดคล้องกัน เช่นเดียวกับ QNLI แต่ละตัวอย่างจะได้รับการประเมินแยกกัน ดังนั้นจึงไม่มีความสอดคล้องกันอย่างเป็นระบบระหว่างคะแนนของแบบจำลองในงานนี้และคะแนนของแบบจำลองในงานต้นฉบับที่ยังไม่ได้แปลง เราเรียกชุดข้อมูลที่แปลงแล้ว WNLI (Winograd NLI)

  • หน้าแรก : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html

  • ขนาดการดาวน์โหลด : 28.32 KiB

  • ขนาดชุดข้อมูล : 198.88 KiB

  • แยก :

แยก ตัวอย่าง
'test' 146
'train' 635
'validation' 71
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
ประโยค1 ข้อความ สตริง
ประโยค2 ข้อความ สตริง
  • การอ้างอิง :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว / ขวาน

  • คำอธิบาย การกำหนดค่า : ชุดข้อมูลการประเมินที่จัดการด้วยตนเองสำหรับการวิเคราะห์อย่างละเอียดของประสิทธิภาพของระบบในปรากฏการณ์ทางภาษาศาสตร์ที่หลากหลาย ชุดข้อมูลนี้ประเมินความเข้าใจประโยคผ่านปัญหาการอนุมานภาษาธรรมชาติ (NLI) ใช้โมเดลที่ได้รับการฝึกฝนบน MulitNLI เพื่อสร้างการคาดการณ์สำหรับชุดข้อมูลนี้

  • หน้าแรก : https://gluebenchmark.com/diagnostics

  • ขนาดการดาวน์โหลด : 217.05 KiB

  • ขนาดชุดข้อมูล : 299.16 KiB

  • แยก :

แยก ตัวอย่าง
'test' 1,104
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
สมมติฐาน ข้อความ สตริง
idx เทนเซอร์ int32
ฉลาก ป้ายกำกับคลาส int64
หลักฐาน ข้อความ สตริง
  • การอ้างอิง :
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.