Ajuda a proteger a Grande Barreira de Corais com TensorFlow em Kaggle Junte Desafio

super_cola

  • Descrição:

Supercola ( https://super.gluebenchmark.com/ ) é um novo marco denominado após cola com um novo conjunto de tarefas de linguagem compreensão mais difíceis, recursos melhorados e um novo leaderboard público.

super_glue / boolq (configuração padrão)

  • Configuração Descrição: BoolQ (. Questões booleanos, Clark et ai, 2019a) é uma tarefa QA onde cada exemplo é constituído por uma pequena passagem e do tipo sim / não há dúvida sobre a passagem. As perguntas são fornecidas anonimamente e não solicitadas pelos usuários do mecanismo de busca Google e, posteriormente, emparelhadas com um parágrafo de um artigo da Wikipedia que contém a resposta. Seguindo o trabalho original, avaliamos com precisão.

  • Homepage: https://github.com/google-research-datasets/boolean-questions

  • Tamanho do download: 3.93 MiB

  • desdobramentos:

Dividir Exemplos
'test' 3.245
'train' 9.427
'validation' 3.270
  • Características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'passage': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • citação:
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / cb

  • Configuração Descrição: (. De Marneffe et ai, 2019) A CommitmentBank é um corpo de textos curtos em que, pelo menos, uma frase contém uma cláusula incorporado. Cada uma dessas cláusulas embutidas é anotada com o grau em que esperamos que a pessoa que escreveu o texto esteja comprometida com a veracidade da cláusula. A tarefa resultante enquadrada como vinculação textual de três classes em exemplos retirados do Wall Street Journal, ficção do British National Corpus e Switchboard. Cada exemplo consiste em uma premissa contendo uma cláusula embutida e a hipótese correspondente é a extração dessa cláusula. Usamos um subconjunto dos dados que tiveram concordância entre anotadores acima de 0,85. Os dados estão desequilibrados (relativamente menos exemplos neutros), então avaliamos usando precisão e F1, onde para F1 multiclasse calculamos a média não ponderada de F1 por classe.

  • Homepage: https://github.com/mcdm/CommitmentBank

  • Tamanho do download: 73.71 KiB

  • desdobramentos:

Dividir Exemplos
'test' 250
'train' 250
'validation' 56
  • Características:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • citação:
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_cola / copa

  • Configuração descrição: a escolha do Plausível Alternativas (. COPA, Roemmele et al, 2011) conjunto de dados é uma tarefa causal raciocínio em que um sistema é dada uma sentença premissa e duas alternativas possíveis. O sistema deve escolher a alternativa que tem a relação causal mais plausível com a premissa. O método utilizado para a construção das alternativas garante que a tarefa requer raciocínio causal para ser resolvida. Os exemplos lidam com possíveis causas alternativas ou possíveis efeitos alternativos da sentença da premissa, acompanhados por uma pergunta simples que elimina a ambigüidade entre os dois tipos de instância para o modelo. Todos os exemplos são feitos à mão e enfocam tópicos de blogs online e uma enciclopédia relacionada à fotografia. Seguindo a recomendação dos autores, avaliamos usando a precisão.

  • Homepage: http://people.ict.usc.edu/~gordon/copa.html

  • Tamanho do download: 42.96 KiB

  • desdobramentos:

Dividir Exemplos
'test' 500
'train' 400
'validation' 100
  • Características:
FeaturesDict({
    'choice1': Text(shape=(), dtype=tf.string),
    'choice2': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • citação:
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_cola / multirc

  • Configuração Descrição: O Multi-Frase compreensão de leitura conjunto de dados (. MultiRC, Khashabi et al, 2018) é uma tarefa verdadeira / falsa-resposta a uma pergunta. Cada exemplo consiste em um parágrafo de contexto, uma pergunta sobre esse parágrafo e uma lista de respostas possíveis a essa pergunta que devem ser rotuladas como verdadeiras ou falsas. O atendimento de perguntas (QA) é um problema comum com muitos conjuntos de dados. Usamos MultiRC por causa de uma série de propriedades desejáveis: (i) cada pergunta pode ter várias respostas corretas possíveis, então cada par pergunta-resposta deve ser avaliado independentemente de outros pares, (ii) as perguntas são projetadas de forma que responder a cada pergunta requer extrair fatos de várias sentenças de contexto e (iii) o formato do par pergunta-resposta se assemelha mais à API de outras tarefas SuperGLUE do que o controle de qualidade extrativo baseado em abrangência. Os parágrafos são extraídos de sete domínios, incluindo notícias, ficção e texto histórico.

  • Homepage: https://cogcomp.org/multirc/

  • Tamanho do download: 1.06 MiB

  • desdobramentos:

Dividir Exemplos
'test' 9.693
'train' 27.243
'validation' 4.848
  • Características:
FeaturesDict({
    'answer': Text(shape=(), dtype=tf.string),
    'idx': FeaturesDict({
        'answer': tf.int32,
        'paragraph': tf.int32,
        'question': tf.int32,
    }),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • citação:
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_cola / registro

  • Configuração Descrição: (. Compreensão de leitura com Commonsense Reasoning conjunto de dados, Zhang et ai, 2018) é uma tarefa QA-escolha múltipla. Cada exemplo consiste em um artigo de notícias e uma pergunta do tipo Cloze sobre o artigo no qual uma entidade está mascarada. O sistema deve prever a entidade mascarada de uma determinada lista de entidades possíveis na passagem fornecida, onde a mesma entidade pode ser expressa usando várias formas de superfície diferentes, todas as quais são consideradas corretas. Os artigos são extraídos da CNN e do Daily Mail. Seguindo o trabalho original, avaliamos com máximo (sobre todas as menções) F1 de nível de token e correspondência exata (EM).

  • Homepage: https://sheng-z.github.io/ReCoRD-explorer/

  • Tamanho do download: 49.36 MiB

  • desdobramentos:

Dividir Exemplos
'test' 10.000
'train' 100.730
'validation' 10.000
  • Características:
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=tf.string)),
    'entities': Sequence(Text(shape=(), dtype=tf.string)),
    'idx': FeaturesDict({
        'passage': tf.int32,
        'query': tf.int32,
    }),
    'passage': Text(shape=(), dtype=tf.string),
    'query': Text(shape=(), dtype=tf.string),
})
  • citação:
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / rte

  • Configuração Descrição: Os conjuntos de dados Reconhecendo Prova Entailment (RTE) vêm de uma série de competições anuais sobre vinculação textual, o problema de prever se uma determinada frase premissa implica uma determinada frase hipótese (também conhecido como inferência de linguagem natural, NLI). RTE foi previamente incluído no GLUE e usamos os mesmos dados e formato de antes: Nós mesclamos dados de RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) e RTE5 (Bentivogli et al., 2009). Todos os conjuntos de dados são combinados e convertidos para a classificação de duas classes: vinculação e not_entailment. De todas as tarefas do GLUE, o RTE estava entre aqueles que mais se beneficiaram da aprendizagem por transferência, saltando de um desempenho quase aleatório (~ 56%) no momento do lançamento do GLUE para 85% de precisão (Liu et al., 2019c) no hora da escrita. Dada a lacuna de oito pontos em relação ao desempenho humano, no entanto, a tarefa ainda não foi resolvida por máquinas e esperamos que a lacuna restante seja difícil de fechar.

  • Homepage: https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Tamanho do download: 733.32 KiB

  • desdobramentos:

Dividir Exemplos
'test' 3.000
'train' 2.490
'validation' 277
  • Características:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • citação:
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wic

  • A inscrição Config: A Palavra-in-Context (WIC, Pilehvar e Camacho-Collados, 2019) conjunto de dados suporta um sentido palavra tarefa disambiguation elenco como classificação binária sobre pares de frases. Dadas duas sentenças e uma palavra polissêmica (ambígua de sentido) que aparece em ambas as sentenças, a tarefa é determinar se a palavra é usada com o mesmo sentido em ambas as sentenças. As sentenças são extraídas de WordNet (Miller, 1995), VerbNet (Schuler, 2005) e Wikcionário. Seguimos o trabalho original e avaliamos com precisão.

  • Homepage: https://pilehvar.github.io/wic/

  • Tamanho do download: 386.93 KiB

  • desdobramentos:

Dividir Exemplos
'test' 1.400
'train' 5.428
'validation' 638
  • Características:
FeaturesDict({
    'end1': tf.int32,
    'end2': tf.int32,
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
    'start1': tf.int32,
    'start2': tf.int32,
    'word': Text(shape=(), dtype=tf.string),
})
  • citação:
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc

  • Configuração Descrição: O Winograd Schema Challenge (. WSC, Levesque et al 2012) é uma tarefa de compreensão de leitura em que um sistema deve ler uma frase com um pronome e selecione o referente desse pronome de uma lista de opções. Dada a dificuldade desta tarefa e o espaço que ainda resta, incluímos WSC no SuperGLUE e reformulamos o conjunto de dados em sua forma de co-referência. A tarefa é lançada como um problema de classificação binária, em oposição a N-múltipla escolha, a fim de isolar a capacidade do modelo de entender os links de co-referência dentro de uma frase em oposição a várias outras estratégias que podem entrar em jogo em condições de múltipla escolha. Com isso em mente, criamos uma divisão com 65% da classe de maioria negativa no conjunto de validação, refletindo a distribuição do conjunto de teste oculto, e 52% da classe negativa no conjunto de treinamento. Os exemplos de treinamento e validação são extraídos do conjunto de dados Winograd Schema original (Levesque et al., 2012), bem como aqueles distribuídos pela organização afiliada Commonsense Reasoning. Os exemplos de teste são derivados de livros de ficção e foram compartilhados conosco pelos autores do conjunto de dados original. Anteriormente, uma versão do WSC reformulada como NLI conforme incluída no GLUE, conhecida como WNLI. Nenhum progresso substancial foi feito no WNLI, com muitas submissões optando por enviar apenas previsões da classe da maioria. O WNLI tornou-se especialmente difícil devido a uma divisão de trem / dev adversarial: sentenças premissas que apareciam no conjunto de treinamento às vezes apareciam no conjunto de desenvolvimento com uma hipótese diferente e um rótulo invertido. Se um sistema memorizasse o conjunto de treinamento sem generalizar significativamente, o que era fácil devido ao pequeno tamanho do conjunto de treinamento, ele poderia ter um desempenho muito abaixo do acaso no conjunto de desenvolvimento. Removemos esse design adversário na versão SuperGLUE da WSC, garantindo que nenhuma frase seja compartilhada entre os conjuntos de treinamento, validação e teste.

No entanto, os conjuntos de validação e teste vêm de domínios diferentes, com o conjunto de validação consistindo em exemplos ambíguos, de modo que a alteração de uma palavra de frase não nominal mudará as dependências de co-referência na frase. O conjunto de teste consiste apenas em exemplos mais simples, com um grande número de sintagmas nominais (e, portanto, mais opções para o modelo), mas de baixa ou nenhuma ambigüidade.

Dividir Exemplos
'test' 146
'train' 554
'validation' 104
  • Características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • citação:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc.fixed

  • Configuração Descrição: O Winograd Schema Challenge (. WSC, Levesque et al 2012) é uma tarefa de compreensão de leitura em que um sistema deve ler uma frase com um pronome e selecione o referente desse pronome de uma lista de opções. Dada a dificuldade desta tarefa e o espaço que ainda resta, incluímos WSC no SuperGLUE e reformulamos o conjunto de dados em sua forma de co-referência. A tarefa é lançada como um problema de classificação binária, em oposição a N-múltipla escolha, a fim de isolar a capacidade do modelo de entender os links de co-referência dentro de uma frase em oposição a várias outras estratégias que podem entrar em jogo em condições de múltipla escolha. Com isso em mente, criamos uma divisão com 65% da classe de maioria negativa no conjunto de validação, refletindo a distribuição do conjunto de teste oculto, e 52% da classe negativa no conjunto de treinamento. Os exemplos de treinamento e validação são extraídos do conjunto de dados Winograd Schema original (Levesque et al., 2012), bem como aqueles distribuídos pela organização afiliada Commonsense Reasoning. Os exemplos de teste são derivados de livros de ficção e foram compartilhados conosco pelos autores do conjunto de dados original. Anteriormente, uma versão do WSC reformulada como NLI conforme incluída no GLUE, conhecida como WNLI. Nenhum progresso substancial foi feito no WNLI, com muitas submissões optando por enviar apenas previsões da classe da maioria. O WNLI tornou-se especialmente difícil devido a uma divisão de trem / dev adversarial: sentenças premissas que apareciam no conjunto de treinamento às vezes apareciam no conjunto de desenvolvimento com uma hipótese diferente e um rótulo invertido. Se um sistema memorizasse o conjunto de treinamento sem generalizar significativamente, o que era fácil devido ao pequeno tamanho do conjunto de treinamento, ele poderia ter um desempenho muito abaixo do acaso no conjunto de desenvolvimento. Removemos esse design adversário na versão SuperGLUE da WSC, garantindo que nenhuma frase seja compartilhada entre os conjuntos de treinamento, validação e teste.

No entanto, os conjuntos de validação e teste vêm de domínios diferentes, com o conjunto de validação consistindo em exemplos ambíguos, de modo que a alteração de uma palavra de frase não substantiva mudará as dependências de co-referência na frase. O conjunto de teste consiste apenas em exemplos mais simples, com um grande número de sintagmas nominais (e, portanto, mais opções para o modelo), mas de baixa ou nenhuma ambigüidade.

Esta versão corrige problemas em que as extensões não são realmente substrings do texto.

Dividir Exemplos
'test' 146
'train' 554
'validation' 104
  • Características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • citação:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_cola / axb

  • A inscrição Config: An, conjunto de dados de diagnóstico construído-expert que testa automaticamente modelos para uma ampla gama de linguística, senso comum e conhecimento do mundo. Cada exemplo neste diagnóstico de ampla cobertura é um par de sentenças rotulado com uma relação de vinculação de três vias (vinculação, neutro ou contradição) e marcado com rótulos que indicam os fenômenos que caracterizam a relação entre as duas sentenças. Os envios para o placar GLUE devem incluir previsões do classificador MultiNLI do envio no conjunto de dados de diagnóstico, e as análises dos resultados foram mostradas ao lado do placar principal. Uma vez que esta tarefa de diagnóstico de ampla cobertura provou ser difícil para os modelos de topo, nós a mantemos no SuperGLUE. No entanto, como o MultiNLI não faz parte do SuperGLUE, agrupamos a contradição e o neutro em um único rótulo not_entailment e solicitamos que os envios incluam previsões no conjunto resultante do modelo usado para a tarefa RTE.

  • Homepage: https://gluebenchmark.com/diagnostics

  • Tamanho do download: 33.15 KiB

  • desdobramentos:

Dividir Exemplos
'test' 1.104
  • Características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • citação:
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_cola / axg

  • A inscrição Config: Winogender é projetado para medir o preconceito de gênero nos sistemas de resolução correferência. Usamos a versão Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) que define o Winogender como uma tarefa de vinculação textual. Cada exemplo consiste em uma frase premissa com um pronome masculino ou feminino e uma hipótese que dá um possível antecedente do pronome. Os exemplos ocorrem em pares mínimos, onde a única diferença entre um exemplo e seu par é o gênero do pronome na premissa. O desempenho no Winogender é medido tanto com precisão quanto com a pontuação de paridade de gênero: a porcentagem de pares mínimos para os quais as previsões são as mesmas. Notamos que um sistema pode obter trivialmente uma pontuação perfeita de paridade de gênero ao adivinhar a mesma classe para todos os exemplos, portanto, uma pontuação alta de paridade de gênero não tem sentido, a menos que seja acompanhada por alta precisão. Como um teste diagnóstico de viés de gênero, vemos os esquemas como tendo alto valor preditivo positivo e baixo valor preditivo negativo; ou seja, eles podem demonstrar a presença de preconceito de gênero em um sistema, mas não provar sua ausência.

  • Homepage: https://github.com/rudinger/winogender-schemas

  • Tamanho do download: 10.17 KiB

  • desdobramentos:

Dividir Exemplos
'test' 356
  • Características:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • citação:
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.