กาว

  • รายละเอียด:

กาว, ภาษาทั่วไปทำความเข้าใจเกี่ยวกับมาตรฐานการประเมินผล ( https://gluebenchmark.com/ ) เป็นคอลเลกชันของทรัพยากรสำหรับการฝึกอบรมการประเมินผลและการวิเคราะห์ระบบการทำความเข้าใจภาษาธรรมชาติ

  • รหัสที่มา: tfds.text.Glue

  • รุ่น:

    • 1.0.0 : แยก API ใหม่ ( https://tensorflow.org/datasets/splits )
    • 1.0.1 : การปรับปรุงการเชื่อมโยง URL ตาย
    • 2.0.0 (เริ่มต้น): แหล่งข้อมูลการปรับปรุงสำหรับกาว / qqp
  • ออโต้แคช ( เอกสาร ): ใช่

  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • รูป ( tfds.show_examples ): ไม่ได้รับการสนับสนุน

กาว/โคล่า (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย Config: คลังของภาษาศาสตร์ยอมรับประกอบด้วยการยอมรับคำตัดสินภาษาอังกฤษมาจากหนังสือวารสารและบทความเกี่ยวกับทฤษฎีทางภาษาศาสตร์ แต่ละตัวอย่างเป็นลำดับของคำที่มีคำอธิบายประกอบว่าเป็นประโยคภาษาอังกฤษตามหลักไวยากรณ์หรือไม่

  • โฮมเพจ: https://nyu-mll.github.io/CoLA/

  • ขนาดการดาวน์โหลด: 368.14 KiB

  • ขนาดชุด: 965.49 KiB

  • แยก:

แยก ตัวอย่าง
'test' 1,063
'train' 8,551
'validation' 1,043
  • คุณสมบัติ:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@article{warstadt2018neural,
  title={Neural Network Acceptability Judgments},
  author={Warstadt, Alex and Singh, Amanpreet and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1805.12471},
  year={2018}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/sst2

  • คำอธิบาย Config: เชื่อมั่น Stanford Treebank ประกอบด้วยประโยคจากบทวิจารณ์ภาพยนตร์และคำอธิบายประกอบมนุษย์ของความเชื่อมั่นของพวกเขา งานคือการทำนายความรู้สึกของประโยคที่กำหนด เราใช้การแบ่งคลาสแบบสองทาง (บวก/ลบ) และใช้ป้ายกำกับระดับประโยคเท่านั้น

  • โฮมเพจ: https://nlp.stanford.edu/sentiment/index.html

  • ขนาดการดาวน์โหลด: 7.09 MiB

  • ขนาดชุด: 7.22 MiB

  • แยก:

แยก ตัวอย่าง
'test' 1,821
'train' 67,349
'validation' 872
  • คุณสมบัติ:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@inproceedings{socher2013recursive,
  title={Recursive deep models for semantic compositionality over a sentiment treebank},
  author={Socher, Richard and Perelygin, Alex and Wu, Jean and Chuang, Jason and Manning, Christopher D and Ng, Andrew and Potts, Christopher},
  booktitle={Proceedings of the 2013 conference on empirical methods in natural language processing},
  pages={1631--1642},
  year={2013}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/mrpc

  • คำอธิบาย Config: ไมโครซอฟท์คอร์ปัสแปลความหมายการวิจัย (Dolan และ Brockett 2005) เป็นคลังคู่ประโยคสกัดโดยอัตโนมัติจากแหล่งข่าวออนไลน์ที่มีคำอธิบายประกอบของมนุษย์ไม่ว่าจะเป็นประโยคในคู่ที่มีความหมายเทียบเท่า

  • โฮมเพจ: https://www.microsoft.com/en-us/download/details.aspx?id=52398

  • ขนาดการดาวน์โหลด: 1.43 MiB

  • ขนาดชุด: 1.74 MiB

  • แยก:

แยก ตัวอย่าง
'test' 1,725
'train' 3,668
'validation' 408
  • คุณสมบัติ:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@inproceedings{dolan2005automatically,
  title={Automatically constructing a corpus of sentential paraphrases},
  author={Dolan, William B and Brockett, Chris},
  booktitle={Proceedings of the Third International Workshop on Paraphrasing (IWP2005)},
  year={2005}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/qqp

  • คำอธิบาย Config: ชุดข้อมูล Quora คำถาม Pairs2 เป็นคอลเลกชันของคู่คำถามจากเว็บไซต์ชุมชนคำถามตอบ Quora ภารกิจคือการพิจารณาว่าคำถามคู่หนึ่งมีความหมายเท่ากันหรือไม่

  • โฮมเพจ: https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

  • ขนาดการดาวน์โหลด: 39.76 MiB

  • ขนาดชุด: 150.37 MiB

  • แยก:

แยก ตัวอย่าง
'test' 390,965
'train' 363,846
'validation' 40,430
  • คุณสมบัติ:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'question1': Text(shape=(), dtype=tf.string),
    'question2': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@online{WinNT,
  author = {Iyer, Shankar and Dandekar, Nikhil and Csernai, Kornel},
  title = {First Quora Dataset Release: Question Pairs},
  year = 2017,
  url = {https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs},
  urldate = {2019-04-03}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/stsb

  • คำอธิบาย Config: (. Cer et al, 2017) เดอะความหมายคล้ายคลึงกันต้นฉบับเกณฑ์มาตรฐานคือชุดของคู่ประโยคมาจากหัวข้อข่าววิดีโอและภาพคำอธิบายภาพและข้อมูลการอนุมานภาษาธรรมชาติ แต่ละคู่มีคำอธิบายประกอบโดยมนุษย์โดยมีคะแนนความคล้ายคลึงกันตั้งแต่ 1 ถึง 5

  • โฮมเพจ: http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark

  • ขนาดการดาวน์โหลด: 784.05 KiB

  • ขนาดชุด: 1.58 MiB

  • แยก:

แยก ตัวอย่าง
'test' 1,379
'train' 5,749
'validation' 1,500
  • คุณสมบัติ:
FeaturesDict({
    'idx': tf.int32,
    'label': tf.float32,
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@article{cer2017semeval,
  title={Semeval-2017 task 1: Semantic textual similarity-multilingual and cross-lingual focused evaluation},
  author={Cer, Daniel and Diab, Mona and Agirre, Eneko and Lopez-Gazpio, Inigo and Specia, Lucia},
  journal={arXiv preprint arXiv:1708.00055},
  year={2017}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/mnli

  • คำอธิบาย Config: Multi-แนวภาษาธรรมชาติอนุมานคอร์ปัสเป็นชุด crowdsourced ของคู่ประโยคด้วยคำอธิบายประกอบ entailment ต้นฉบับเดิม เมื่อพิจารณาจากประโยคสมมติฐานและประโยคสมมติฐาน ภารกิจคือการทำนายว่าสมมติฐานนั้นเกี่ยวข้องกับสมมติฐาน (ความเกี่ยวข้อง) ขัดแย้งกับสมมติฐาน (ความขัดแย้ง) หรือไม่ (เป็นกลาง) ประโยคเบื้องต้นรวบรวมจากแหล่งต่าง ๆ สิบแห่ง รวมทั้งคำพูด นิยาย และรายงานของรัฐบาล เราใช้ชุดทดสอบมาตรฐาน ซึ่งเราได้รับป้ายกำกับส่วนตัวจากผู้เขียน และประเมินทั้งในส่วนที่ตรงกัน (ในโดเมน) และไม่ตรงกัน (ข้ามโดเมน) เรายังใช้และแนะนำคลังข้อมูล SNLI เป็นตัวอย่างข้อมูลการฝึกเสริมจำนวน 550k

  • โฮมเพจ: http://www.nyu.edu/projects/bowman/multinli/

  • ขนาดการดาวน์โหลด: 298.29 MiB

  • ขนาดชุด: 100.56 MiB

  • แยก:

แยก ตัวอย่าง
'test_matched' 9,796
'test_mismatched' 9,847
'train' 392,702
'validation_matched' 9,815
'validation_mismatched' 9,832
  • คุณสมบัติ:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/mnli_mismatched

  • คำอธิบายการกำหนดค่าการไม่ตรงกันการตรวจสอบและการทดสอบแยกจาก MNLI ดู "mnli" BuilderConfig สำหรับข้อมูลเพิ่มเติม

  • โฮมเพจ: http://www.nyu.edu/projects/bowman/multinli/

  • ขนาดการดาวน์โหลด: 298.29 MiB

  • ขนาดชุด: 4.79 MiB

  • แยก:

แยก ตัวอย่าง
'test' 9,847
'validation' 9,832
  • คุณสมบัติ:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/mnli_matched

  • คำอธิบายการกำหนดค่าการจับคู่การตรวจสอบและการทดสอบแยกจาก MNLI ดู "mnli" BuilderConfig สำหรับข้อมูลเพิ่มเติม

  • โฮมเพจ: http://www.nyu.edu/projects/bowman/multinli/

  • ขนาดการดาวน์โหลด: 298.29 MiB

  • ขนาดชุด: 4.58 MiB

  • แยก:

แยก ตัวอย่าง
'test' 9,796
'validation' 9,815
  • คุณสมบัติ:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/qnli

  • คำอธิบายการกำหนดค่าการ Stanford คำถามที่ตอบรับชุดข้อมูลเป็นชุดคำถามตอบประกอบด้วยคู่คำถามวรรคที่หนึ่งของประโยคในวรรค (มาจากวิกิพีเดีย) มีคำตอบสำหรับคำถามที่สอดคล้องกัน (เขียนโดย annotator) เราแปลงงานเป็นการจำแนกคู่ประโยคโดยสร้างคู่ระหว่างคำถามแต่ละข้อและแต่ละประโยคในบริบทที่เกี่ยวข้อง และกรองคู่ที่มีการทับซ้อนกันของคำศัพท์ต่ำระหว่างคำถามและประโยคบริบท งานคือการพิจารณาว่าประโยคบริบทมีคำตอบสำหรับคำถามหรือไม่ งานต้นฉบับที่แก้ไขแล้วนี้จะลบข้อกำหนดที่แบบจำลองเลือกคำตอบที่แน่นอน แต่ยังลบสมมติฐานที่ทำให้เข้าใจง่ายว่าคำตอบมีอยู่ในอินพุตเสมอและการทับซ้อนของคำศัพท์นั้นเป็นสัญญาณที่เชื่อถือได้

  • โฮมเพจ: https://rajpurkar.github.io/SQuAD-explorer/

  • ขนาดการดาวน์โหลด: 10.14 MiB

  • ขนาดชุด: 32.99 MiB

  • แยก:

แยก ตัวอย่าง
'test' 5,463
'train' 104,743
'validation' 5,463
  • คุณสมบัติ:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'question': Text(shape=(), dtype=tf.string),
    'sentence': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@article{rajpurkar2016squad,
  title={Squad: 100,000+ questions for machine comprehension of text},
  author={Rajpurkar, Pranav and Zhang, Jian and Lopyrev, Konstantin and Liang, Percy},
  journal={arXiv preprint arXiv:1606.05250},
  year={2016}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/rte

  • คำอธิบายการกำหนดค่าการตระหนักถึงข้อความ entailment (RTE) ชุดข้อมูลมาจากชุดของความท้าทาย entailment ต้นฉบับเดิมประจำปี เรารวมข้อมูลจาก RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) และ RTE5 (Bentivogli et al., 2009)4 ตัวอย่างคือ สร้างขึ้นจากข่าวและข้อความวิกิพีเดีย เราแปลงชุดข้อมูลทั้งหมดเป็นแบบแบ่งสองคลาส โดยสำหรับชุดข้อมูลสามคลาส เราจะยุบค่ากลางและความขัดแย้งให้กลายเป็นไม่เกี่ยวข้อง เพื่อความสอดคล้องกัน

  • โฮมเพจ: https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • ขนาดการดาวน์โหลด: 680.81 KiB

  • ขนาดชุด: 2.15 MiB

  • แยก:

แยก ตัวอย่าง
'test' 3,000
'train' 2,490
'validation' 277
  • คุณสมบัติ:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/wnli

  • คำอธิบาย Config: (. Levesque et al, 2011) เดอะ Winograd Schema ท้าทายเป็นงานที่เข้าใจในการอ่านที่ระบบต้องอ่านประโยคที่มีสรรพนามและเลือกอ้างอิงสรรพนามว่าจากรายการของตัวเลือก ตัวอย่างถูกสร้างขึ้นด้วยตนเองเพื่อทำลายวิธีการทางสถิติอย่างง่าย: แต่ละรายการขึ้นอยู่กับข้อมูลตามบริบทที่จัดเตรียมโดยคำหรือวลีเดียวในประโยค ในการแปลงปัญหาเป็นการจำแนกคู่ประโยค เราสร้างคู่ประโยคโดยแทนที่คำสรรพนามที่คลุมเครือด้วยการอ้างอิงที่เป็นไปได้ ภารกิจคือการทำนายว่าประโยคที่มีคำสรรพนามแทนนั้นเกี่ยวข้องกับประโยคเดิมหรือไม่ เราใช้ชุดประเมินผลขนาดเล็กที่ประกอบด้วยตัวอย่างใหม่ๆ ที่ได้มาจากหนังสือนิยายที่ผู้เขียนของคลังข้อมูลดั้งเดิมแบ่งปันเป็นการส่วนตัว แม้ว่าชุดการฝึกที่รวมไว้จะมีความสมดุลระหว่างสองคลาส แต่ชุดทดสอบนั้นไม่สมดุลระหว่างพวกเขา (65% ไม่มีการบังคับ) นอกจากนี้ เนื่องจากความโกลาหลของข้อมูล ชุดการพัฒนาจึงเป็นปฏิปักษ์กัน: บางครั้งมีการแบ่งปันสมมติฐานระหว่างตัวอย่างการฝึกอบรมและการพัฒนา ดังนั้นหากแบบจำลองจดจำตัวอย่างการฝึกอบรม พวกเขาจะคาดการณ์ป้ายกำกับที่ไม่ถูกต้องบนตัวอย่างชุดการพัฒนาที่สอดคล้องกัน เช่นเดียวกับ QNLI แต่ละตัวอย่างจะได้รับการประเมินแยกกัน ดังนั้นจึงไม่มีความสอดคล้องกันอย่างเป็นระบบระหว่างคะแนนของแบบจำลองในงานนี้กับคะแนนในงานต้นฉบับที่ไม่ได้แปลง เราเรียกชุดข้อมูลที่แปลงแล้ว WNLI (Winograd NLI)

  • โฮมเพจ: https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html

  • ขนาดการดาวน์โหลด: 28.32 KiB

  • ขนาดชุด: 198.88 KiB

  • แยก:

แยก ตัวอย่าง
'test' 146
'train' 635
'validation' 71
  • คุณสมบัติ:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

กาว/ขวาน

  • คำอธิบาย Config: เป็นชุดข้อมูลการประเมินผลด้วยตนเองการดูแลจัดการสำหรับการวิเคราะห์เม็ดเล็กของประสิทธิภาพของระบบเกี่ยวกับความหลากหลายของปรากฏการณ์ทางภาษา ชุดข้อมูลนี้ประเมินความเข้าใจประโยคผ่านปัญหาการอนุมานภาษาธรรมชาติ (NLI) ใช้แบบจำลองที่ได้รับการฝึกอบรมเกี่ยวกับ MulitNLI เพื่อสร้างการคาดการณ์สำหรับชุดข้อมูลนี้

  • โฮมเพจ: https://gluebenchmark.com/diagnostics

  • ขนาดการดาวน์โหลด: 217.05 KiB

  • ขนาดชุด: 299.16 KiB

  • แยก:

แยก ตัวอย่าง
'test' 1,104
  • คุณสมบัติ:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.