초강력 접착제

  • 설명 :

SuperGLUE( https://super.gluebenchmark.com/ )는 더 어려운 언어 이해 작업, 개선된 리소스 및 새로운 공개 순위표가 포함된 GLUE 스타일의 새로운 벤치마크입니다.

super_glue/boolq(기본 구성)

  • 구성 설명 : BoolQ(Boolean Questions, Clark et al., 2019a)는 각 예제가 짧은 구절과 구절에 대한 예/아니요 질문으로 구성된 QA 작업입니다. 질문은 Google 검색 엔진 사용자가 요청하지 않고 익명으로 제공되며 이후 답변이 포함된 Wikipedia 기사의 단락과 쌍을 이룹니다. 원작에 이어 정확하게 평가합니다.

  • 홈페이지 : https://github.com/google-research-datasets/boolean-questions

  • 다운로드 크기 : 3.93 MiB

  • 데이터 세트 크기 : 10.75 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 3,245
'train' 9,427
'validation' 3,270
  • 기능 구조 :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'passage': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
아이디엑스 텐서 int32
상표 클래스 레이블 int64
통로 텍스트
의문 텍스트
  • 인용 :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/cb

  • 구성 설명 : CommitmentBank(De Marneffe et al., 2019)는 절이 포함된 문장이 하나 이상 포함된 짧은 텍스트 모음입니다. 이러한 삽입된 각 절에는 텍스트를 작성한 사람이 해당 절의 진실에 전념할 것이라고 예상하는 정도가 주석으로 표시됩니다. 결과 작업은 Wall Street Journal, British National Corpus의 소설 및 Switchboard에서 가져온 예제에 대한 세 가지 클래스 텍스트 수반으로 구성됩니다. 각 예는 내재된 절을 포함하는 전제로 구성되며 해당 가설은 해당 절의 추출입니다. 우리는 0.85 이상의 어노테이터 간 일치가 있는 데이터의 하위 집합을 사용합니다. 데이터의 균형이 맞지 않아(상대적으로 중립적인 예가 적음) 정확도와 F1을 사용하여 평가합니다. 여기서 다중 클래스 F1의 경우 클래스당 F1의 비가중 평균을 계산합니다.

  • 홈페이지 : https://github.com/mcdm/CommitmentBank

  • 다운로드 크기 : 73.71 KiB

  • 데이터 세트 크기 : 229.28 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 250
'train' 250
'validation' 56
  • 기능 구조 :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
가설 텍스트
아이디엑스 텐서 int32
상표 클래스 레이블 int64
전제 텍스트
  • 인용 :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/코파

  • 구성 설명 : The Choice Of Plausible Alternatives(COPA, Roemmele et al., 2011) 데이터 세트는 전제 문장과 두 가지 가능한 대안이 시스템에 제공되는 인과 추론 작업입니다. 시스템은 전제와 인과관계가 더 타당한 대안을 선택해야 한다. 대안 구성에 사용되는 방법은 작업을 해결하기 위해 인과적 추론이 필요함을 보장합니다. 예는 전제 문장의 대체 가능한 원인 또는 대체 가능한 효과를 다루며 모델에 대한 두 가지 인스턴스 유형 사이를 명확하게 하는 간단한 질문과 함께 제공됩니다. 모든 예제는 수작업으로 제작되었으며 온라인 블로그 및 사진 관련 백과사전의 주제에 중점을 둡니다. 저자의 추천에 따라 정확도를 사용하여 평가합니다.

  • 홈페이지 : http://people.ict.usc.edu/~gordon/copa.html

  • 다운로드 크기 : 42.96 KiB

  • 데이터 세트 크기 : 196.00 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 500
'train' 400
'validation' 100
  • 기능 구조 :
FeaturesDict({
    'choice1': Text(shape=(), dtype=string),
    'choice2': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
초이스1 텍스트
초이스2 텍스트
아이디엑스 텐서 int32
상표 클래스 레이블 int64
전제 텍스트
의문 텍스트
  • 인용 :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/multirc

  • 구성 설명 : Multi-Sentence Reading Comprehension 데이터 세트(MultiRC, Khashabi et al., 2018)는 참/거짓 질문 답변 작업입니다. 각 예는 컨텍스트 단락, 해당 단락에 대한 질문 및 참 또는 거짓으로 레이블이 지정되어야 하는 해당 질문에 대한 가능한 답변 목록으로 구성됩니다. 질문 답변(QA)은 많은 데이터 세트에서 널리 사용되는 문제입니다. 다음과 같은 여러 바람직한 속성 때문에 MultiRC를 사용합니다. (i) 각 질문에는 여러 개의 가능한 정답이 있을 수 있으므로 각 질문-답변 쌍은 다른 쌍과 독립적으로 평가되어야 합니다. 여러 문맥 문장에서 사실을 도출하고 (iii) 질문-답변 쌍 형식은 범위 기반 추출 QA보다 다른 SuperGLUE 작업의 API와 더 밀접하게 일치합니다. 문단은 뉴스, 소설, 역사적 텍스트를 포함한 7개 영역에서 도출됩니다.

  • 홈페이지 : https://cogcomp.org/multirc/

  • 다운로드 크기 : 1.06 MiB

  • 데이터 세트 크기 : 70.39 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 9,693
'train' 27,243
'validation' 4,848
  • 기능 구조 :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'idx': FeaturesDict({
        'answer': int32,
        'paragraph': int32,
        'question': int32,
    }),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
대답 텍스트
아이디엑스 풍모Dict
idx/답변 텐서 int32
idx/문단 텐서 int32
IDX/질문 텐서 int32
상표 클래스 레이블 int64
텍스트
의문 텍스트
  • 인용 :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/레코드

  • 구성 설명 : (Commonsense Reasoning Dataset을 사용한 독해, Zhang et al., 2018)은 객관식 QA 작업입니다. 각 예는 뉴스 기사와 하나의 엔터티가 가려진 기사에 대한 Cloze 스타일의 질문으로 구성됩니다. 시스템은 제공된 구절의 가능한 엔터티 목록에서 마스킹된 엔터티를 예측해야 합니다. 여기서 동일한 엔터티는 여러 가지 다른 표면 형식을 사용하여 표현될 수 있으며 모두 올바른 것으로 간주됩니다. 기사는 CNN과 Daily Mail에서 가져왔습니다. 원래 작업에 따라 최대(모든 언급에 대해) 토큰 수준 F1 및 정확한 일치(EM)로 평가합니다.

  • 홈페이지 : https://sheng-z.github.io/ReCoRD-explorer/

  • 다운로드 크기 : 49.36 MiB

  • 데이터 세트 크기 : 166.40 MiB

  • 자동 캐싱 ( 문서 ): 예(테스트, 검증), shuffle_files=False 인 경우에만(훈련)

  • 분할 :

나뉘다
'test' 10,000
'train' 100,730
'validation' 10,000
  • 기능 구조 :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=string)),
    'entities': Sequence(Text(shape=(), dtype=string)),
    'idx': FeaturesDict({
        'passage': int32,
        'query': int32,
    }),
    'passage': Text(shape=(), dtype=string),
    'query': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
답변 시퀀스(텍스트) (없음,)
엔티티 시퀀스(텍스트) (없음,)
아이디엑스 풍모Dict
idx/통로 텐서 int32
idx/쿼리 텐서 int32
통로 텍스트
질문 텍스트
  • 인용 :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/rte

  • 구성 설명 : Recognizing Textual Entailment(RTE) 데이터 세트는 주어진 전제 문장이 주어진 가설 문장을 수반하는지 여부를 예측하는 문제(NLI라고도 함)인 텍스트 수반에 대한 일련의 연례 대회에서 가져옵니다. RTE는 이전에 GLUE에 포함되었으며 이전과 동일한 데이터 및 형식을 사용합니다. RTE1(Dagan et al., 2006), RTE2(Bar Haim et al., 2006), RTE3(Giampiccolo et al., 2007) 및 RTE5(Bentivogli et al., 2009). 모든 데이터 세트는 결합되어 entailment 및 not_entailment라는 두 가지 클래스 분류로 변환됩니다. 모든 GLUE 작업 중에서 RTE는 GLUE 출시 당시 거의 무작위적인 성능(~56%)에서 85% 정확도(Liu et al., 2019c)로 점프하여 전이 학습에서 가장 많은 이점을 얻은 작업 중 하나였습니다. 글을 쓰는 시간. 그러나 인간의 성과와 관련하여 8점 차이를 감안할 때 아직 기계가 작업을 해결하지 못하고 남은 차이를 좁히기 어려울 것으로 예상됩니다.

  • 홈페이지 : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • 다운로드 크기 : 733.32 KiB

  • 데이터 세트 크기 : 2.15 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 3,000
'train' 2,490
'validation' 277
  • 기능 구조 :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
가설 텍스트
아이디엑스 텐서 int32
상표 클래스 레이블 int64
전제 텍스트
  • 인용 :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wic

  • 구성 설명 : Word-in-Context(WiC, Pilehvar 및 Camacho-Collados, 2019) 데이터 세트는 문장 쌍에 대한 이진 분류로 캐스트된 단어 의미 명확화 작업을 지원합니다. 두 문장과 두 문장 모두에 나타나는 다의어(의미-모호) 단어가 주어졌을 때, 그 단어가 두 문장에서 같은 의미로 사용되는지를 판단하는 것이 과제입니다. 문장은 WordNet(Miller, 1995), VerbNet(Schuler, 2005) 및 Wiktionary에서 가져옵니다. 원작을 따라가며 정확성을 기하여 평가합니다.

  • 홈페이지 : https://pilehvar.github.io/wic/

  • 다운로드 크기 : 386.93 KiB

  • 데이터 세트 크기 : 1.67 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,400
'train' 5,428
'validation' 638
  • 기능 구조 :
FeaturesDict({
    'end1': int32,
    'end2': int32,
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
    'start1': int32,
    'start2': int32,
    'word': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
종료1 텐서 int32
끝2 텐서 int32
아이디엑스 텐서 int32
상표 클래스 레이블 int64
문장1 텍스트
문장2 텍스트
시작1 텐서 int32
시작2 텐서 int32
단어 텍스트
  • 인용 :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc

  • 구성 설명 : Winograd 스키마 챌린지(WSC, Levesque et al., 2012)는 시스템이 대명사가 포함된 문장을 읽고 선택 목록에서 해당 대명사의 지시어를 선택해야 하는 독해 작업입니다. 이 작업의 어려움과 여전히 남아 있는 헤드룸을 감안하여 SuperGLUE에 WSC를 포함하고 데이터 세트를 공동 참조 형식으로 재구성했습니다. 이 작업은 객관식 조건에서 작용할 수 있는 다양한 다른 전략과 달리 문장 내의 상호 참조 링크를 이해하는 모델의 능력을 분리하기 위해 N-다중 선택이 아닌 이진 분류 문제로 캐스팅됩니다. 이를 염두에 두고 숨겨진 테스트 세트의 분포를 반영하여 검증 세트에서 65%의 부정적인 다수 클래스와 훈련 세트에서 52%의 부정적인 클래스로 분할을 만듭니다. 교육 및 검증 예제는 원래 Winograd Schema 데이터 세트(Levesque et al., 2012)와 제휴 조직 Commonsense Reasoning에서 배포한 데이터 세트에서 가져왔습니다. 테스트 예제는 소설책에서 파생되었으며 원본 데이터 세트의 작성자가 공유했습니다. 이전에는 WSC 버전이 WNLI로 알려진 GLUE에 포함된 NLI로 다시 캐스팅되었습니다. 많은 제출물이 다수 등급 예측만 제출하기로 선택하여 WNLI에서 실질적인 진전이 이루어지지 않았습니다. WNLI는 적대적인 기차/개발자 분할로 인해 특히 어려웠습니다. 훈련 세트에 나타나는 전제 문장은 때때로 다른 가설과 뒤집힌 레이블로 개발 세트에 나타났습니다. 훈련 세트의 크기가 작기 때문에 시스템이 의미 있는 일반화 없이 훈련 세트를 암기하면 개발 세트에서 확률보다 훨씬 낮은 성능을 발휘할 수 있습니다. WSC의 SuperGLUE 버전에서는 교육, 검증 및 테스트 세트 간에 문장이 공유되지 않도록 하여 이 적대적인 설계를 제거합니다.

그러나 유효성 검사 및 테스트 세트는 서로 다른 도메인에서 제공되며, 유효성 검사 세트는 명사가 아닌 구 단어 하나를 변경하면 문장의 상호 참조 종속성이 변경되는 것과 같은 모호한 예제로 구성됩니다. 테스트 세트는 더 많은 수의 명사구(따라서 모델에 대한 더 많은 선택)가 있지만 모호성이 낮거나 전혀 없는 더 간단한 예제로만 구성됩니다.

나뉘다
'test' 146
'train' 554
'validation' 104
  • 기능 구조 :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
아이디엑스 텐서 int32
상표 클래스 레이블 int64
span1_index 텐서 int32
span1_text 텍스트
span2_index 텐서 int32
span2_text 텍스트
텍스트 텍스트
  • 인용 :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.fixed

  • 구성 설명 : Winograd 스키마 챌린지(WSC, Levesque et al., 2012)는 시스템이 대명사가 포함된 문장을 읽고 선택 목록에서 해당 대명사의 지시어를 선택해야 하는 독해 작업입니다. 이 작업의 어려움과 여전히 남아 있는 헤드룸을 감안하여 SuperGLUE에 WSC를 포함하고 데이터 세트를 공동 참조 형식으로 재구성했습니다. 이 작업은 객관식 조건에서 작용할 수 있는 다양한 다른 전략과 달리 문장 내의 상호 참조 링크를 이해하는 모델의 능력을 분리하기 위해 N-다중 선택이 아닌 이진 분류 문제로 캐스팅됩니다. 이를 염두에 두고 숨겨진 테스트 세트의 분포를 반영하여 검증 세트에서 65%의 부정적인 다수 클래스와 훈련 세트에서 52%의 부정적인 클래스로 분할을 만듭니다. 교육 및 검증 예제는 원래 Winograd Schema 데이터 세트(Levesque et al., 2012)와 제휴 조직 Commonsense Reasoning에서 배포한 데이터 세트에서 가져왔습니다. 테스트 예제는 소설책에서 파생되었으며 원본 데이터 세트의 작성자가 공유했습니다. 이전에는 WSC 버전이 WNLI로 알려진 GLUE에 포함된 NLI로 다시 캐스팅되었습니다. 많은 제출물이 다수 등급 예측만 제출하기로 선택하여 WNLI에서 실질적인 진전이 이루어지지 않았습니다. WNLI는 적대적인 기차/개발자 분할로 인해 특히 어려웠습니다. 훈련 세트에 나타나는 전제 문장은 때때로 다른 가설과 뒤집힌 레이블로 개발 세트에 나타났습니다. 훈련 세트의 크기가 작기 때문에 시스템이 의미 있는 일반화 없이 훈련 세트를 암기하면 개발 세트에서 확률보다 훨씬 낮은 성능을 발휘할 수 있습니다. WSC의 SuperGLUE 버전에서는 교육, 검증 및 테스트 세트 간에 문장이 공유되지 않도록 하여 이 적대적인 설계를 제거합니다.

그러나 유효성 검사 및 테스트 세트는 서로 다른 도메인에서 제공되며, 유효성 검사 세트는 명사가 아닌 구 단어 하나를 변경하면 문장의 상호 참조 종속성이 변경되는 것과 같은 모호한 예제로 구성됩니다. 테스트 세트는 더 많은 수의 명사구(따라서 모델에 대한 더 많은 선택)가 있지만 모호성이 낮거나 전혀 없는 더 간단한 예제로만 구성됩니다.

이 버전은 범위가 실제로 텍스트의 하위 문자열이 아닌 문제를 수정합니다.

나뉘다
'test' 146
'train' 554
'validation' 104
  • 기능 구조 :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
아이디엑스 텐서 int32
상표 클래스 레이블 int64
span1_index 텐서 int32
span1_text 텍스트
span2_index 텐서 int32
span2_text 텍스트
텍스트 텍스트
  • 인용 :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axb

  • 구성 설명 : 광범위한 언어, 상식 및 세계 지식에 대해 모델을 자동으로 테스트하는 전문가가 구성한 진단 데이터 세트입니다. 이 광범위한 진단의 각 예는 3방향 함의 관계(함의, 중립 또는 모순)로 레이블이 지정되고 두 문장 사이의 관계를 특징짓는 현상을 나타내는 레이블로 태그가 지정된 문장 쌍입니다. GLUE 리더보드에 대한 제출물은 진단 데이터 세트에 대한 제출물의 MultiNLI 분류기의 예측을 포함해야 하며 결과 분석은 기본 리더보드 옆에 표시되었습니다. 이 광범위한 진단 작업은 최상위 모델에서 어려운 것으로 판명되었으므로 SuperGLUE에 유지합니다. 그러나 MultiNLI는 SuperGLUE의 일부가 아니기 때문에 우리는 모순과 중립을 단일 not_entailment 레이블로 축소하고 제출물에 RTE 작업에 사용된 모델의 결과 세트에 대한 예측을 포함하도록 요청합니다.

  • 홈페이지 : https://gluebenchmark.com/diagnostics

  • 다운로드 크기 : 33.15 KiB

  • 데이터 세트 크기 : 290.53 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 1,104
  • 기능 구조 :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
아이디엑스 텐서 int32
상표 클래스 레이블 int64
문장1 텍스트
문장2 텍스트
  • 인용 :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axg

  • 구성 설명 : Winogender는 공동 참조 해결 시스템에서 성별 편향을 측정하도록 설계되었습니다. 우리는 Winogender를 텍스트 함의 작업으로 캐스팅하는 다양한 자연어 추론 컬렉션(DNC; Poliak et al., 2018) 버전을 사용합니다. 각 예는 남성 또는 여성 대명사가 있는 전제 문장과 가능한 선행 대명사를 제공하는 가설로 구성됩니다. 예는 최소한의 쌍으로 발생하며 예와 그 쌍 사이의 유일한 차이점은 전제에 있는 대명사의 성별입니다. Winogender의 성능은 정확도와 성별 패리티 점수(예측이 동일한 최소 쌍의 백분율)로 측정됩니다. 우리는 시스템이 모든 예에 대해 동일한 클래스를 추측하여 완벽한 성평등 점수를 쉽게 얻을 수 있으므로 높은 정확도가 수반되지 않는 한 높은 성평등 점수는 의미가 없다는 점에 주목합니다. 성별 편향의 진단 테스트로서 우리는 스키마가 긍정적인 예측 가치가 높고 부정적인 예측 가치가 낮다고 봅니다. 즉, 시스템에 성별 편향이 있음을 입증할 수 있지만 부재를 증명하지는 못합니다.

  • 홈페이지 : https://github.com/rudinger/winogender-schemas

  • 다운로드 크기 : 10.17 KiB

  • 데이터 세트 크기 : 69.75 KiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 356
  • 기능 구조 :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
가설 텍스트
아이디엑스 텐서 int32
상표 클래스 레이블 int64
전제 텍스트
  • 인용 :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.