Cola

  • Descrição:

Cola, o entendimento de referência Avaliação Geral Language ( https://gluebenchmark.com/ ) é uma coleção de recursos para treinamento, avaliação e análise de linguagem natural sistemas de compreensão.

cola / cola (configuração padrão)

  • Configuração Descrição: O Corpus de linguística aceitabilidade consiste em Inglês julgamentos de aceitabilidade extraídas de livros e artigos de revistas sobre teoria linguística. Cada exemplo é uma sequência de palavras anotadas se é uma frase gramatical em inglês.

  • Homepage: https://nyu-mll.github.io/CoLA/

  • Tamanho do download: 368.14 KiB

  • Dataset size: 965.49 KiB

  • desdobramentos:

Dividir Exemplos
'test' 1.063
'train' 8.551
'validation' 1.043
  • Características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence': Text(shape=(), dtype=tf.string),
})
  • citação:
@article{warstadt2018neural,
  title={Neural Network Acceptability Judgments},
  author={Warstadt, Alex and Singh, Amanpreet and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1805.12471},
  year={2018}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

cola / sst2

  • A inscrição Config: O Sentiment Stanford Treebank consiste em frases de críticas de filmes e anotações humanos de seu sentimento. A tarefa é prever o sentimento de uma determinada frase. Usamos a divisão de classe bidirecional (positivo / negativo) e usamos apenas rótulos de nível de frase.

  • Homepage: https://nlp.stanford.edu/sentiment/index.html

  • Tamanho do download: 7.09 MiB

  • Dataset tamanho: 7.22 MiB

  • desdobramentos:

Dividir Exemplos
'test' 1.821
'train' 67.349
'validation' 872
  • Características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence': Text(shape=(), dtype=tf.string),
})
  • citação:
@inproceedings{socher2013recursive,
  title={Recursive deep models for semantic compositionality over a sentiment treebank},
  author={Socher, Richard and Perelygin, Alex and Wu, Jean and Chuang, Jason and Manning, Christopher D and Ng, Andrew and Potts, Christopher},
  booktitle={Proceedings of the 2013 conference on empirical methods in natural language processing},
  pages={1631--1642},
  year={2013}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

cola / mrpc

  • Configuração Descrição: O Microsoft Research Paraphrase Corpus (Dolan & Brockett, 2005) é um corpus de pares de frases extraídas automaticamente a partir de fontes de notícias online, com anotações humanos para se as frases do par são semanticamente equivalentes.

  • Homepage: https://www.microsoft.com/en-us/download/details.aspx?id=52398

  • Tamanho do download: 1.43 MiB

  • Conjunto de dados de tamanho: 1.74 MiB

  • desdobramentos:

Dividir Exemplos
'test' 1.725
'train' 3.668
'validation' 408
  • Características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • citação:
@inproceedings{dolan2005automatically,
  title={Automatically constructing a corpus of sentential paraphrases},
  author={Dolan, William B and Brockett, Chris},
  booktitle={Proceedings of the Third International Workshop on Paraphrasing (IWP2005)},
  year={2005}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

cola / qqp

  • Configuração Descrição: O conjunto de dados Quora Pergunta Pairs2 é uma coleção de interrogação pares de comunidade site-respondendo a pergunta Quora. A tarefa é determinar se um par de perguntas é semanticamente equivalente.

  • Homepage: https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

  • Tamanho do download: 39.76 MiB

  • Dataset size: 150.37 MiB

  • desdobramentos:

Dividir Exemplos
'test' 390.965
'train' 363.846
'validation' 40.430
  • Características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'question1': Text(shape=(), dtype=tf.string),
    'question2': Text(shape=(), dtype=tf.string),
})
  • citação:
@online{WinNT,
  author = {Iyer, Shankar and Dandekar, Nikhil and Csernai, Kornel},
  title = {First Quora Dataset Release: Question Pairs},
  year = 2017,
  url = {https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs},
  urldate = {2019-04-03}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

cola / stsb

  • Configuração Descrição: O Índice de referência semântica textual Similaridade (. Cer et al, 2017) é um conjunto de pares de frases extraídas de notícias, legendas de vídeo e imagem e dados de inferência de linguagem natural. Cada par é anotado por humanos com uma pontuação de similaridade de 1 a 5.

  • Homepage: http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark

  • Tamanho do download: 784.05 KiB

  • Dataset tamanho: 1.58 MiB

  • desdobramentos:

Dividir Exemplos
'test' 1.379
'train' 5.749
'validation' 1.500
  • Características:
FeaturesDict({
    'idx': tf.int32,
    'label': tf.float32,
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • citação:
@article{cer2017semeval,
  title={Semeval-2017 task 1: Semantic textual similarity-multilingual and cross-lingual focused evaluation},
  author={Cer, Daniel and Diab, Mona and Agirre, Eneko and Lopez-Gazpio, Inigo and Specia, Lucia},
  journal={arXiv preprint arXiv:1708.00055},
  year={2017}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

cola / mnli

  • A inscrição Config: A Multi-Gênero Linguagem Natural Inference Corpus é uma coleção crowdsourced de pares de frases com anotações vinculação textuais. Dada uma sentença de premissa e uma sentença de hipótese, a tarefa é predizer se a premissa acarreta a hipótese (vinculação), contradiz a hipótese (contradição) ou nenhuma (neutra). As sentenças-premissa são coletadas de dez fontes diferentes, incluindo fala transcrita, ficção e relatórios do governo. Usamos o conjunto de teste padrão, para o qual obtivemos marcas próprias dos autores, e avaliamos na seção com correspondência (no domínio) e sem correspondência (entre domínios). Também usamos e recomendamos o SNLI corpus como exemplos de 550k de dados de treinamento auxiliar.

  • Homepage: http://www.nyu.edu/projects/bowman/multinli/

  • Tamanho do download: 298.29 MiB

  • Dataset size: 100.56 MiB

  • desdobramentos:

Dividir Exemplos
'test_matched' 9.796
'test_mismatched' 9.847
'train' 392.702
'validation_matched' 9.815
'validation_mismatched' 9.832
  • Características:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • citação:
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

glue / mnli_mismatched

  • A inscrição Config: A validação incompatíveis e splits teste de MnlI. Consulte o BuilderConfig "mnli" para obter informações adicionais.

  • Homepage: http://www.nyu.edu/projects/bowman/multinli/

  • Tamanho do download: 298.29 MiB

  • Dataset tamanho: 4.79 MiB

  • desdobramentos:

Dividir Exemplos
'test' 9.847
'validation' 9.832
  • Características:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • citação:
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

cola / mnli_matched

  • A inscrição Config: A validação combinados e splits teste de MnlI. Consulte o BuilderConfig "mnli" para obter informações adicionais.

  • Homepage: http://www.nyu.edu/projects/bowman/multinli/

  • Tamanho do download: 298.29 MiB

  • Dataset tamanho: 4.58 MiB

  • desdobramentos:

Dividir Exemplos
'test' 9.796
'validation' 9.815
  • Características:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • citação:
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

cola / qnli

  • Configuração Descrição: O Stanford Pergunta Respondendo Dataset é um conjunto de dados-respondendo a pergunta consistindo de pares-de parágrafo questão, onde uma das frases no parágrafo (extraída de Wikipedia) contém a resposta para a pergunta correspondente (escrito por um anotador). Convertemos a tarefa em classificação de pares de frases formando um par entre cada pergunta e cada frase no contexto correspondente e filtrando os pares com baixa sobreposição lexical entre a pergunta e a frase do contexto. A tarefa é determinar se a sentença de contexto contém a resposta à pergunta. Essa versão modificada da tarefa original remove o requisito de que o modelo selecione a resposta exata, mas também remove as suposições simplificadoras de que a resposta está sempre presente na entrada e que a sobreposição lexical é uma sugestão confiável.

  • Homepage: https://rajpurkar.github.io/SQuAD-explorer/

  • Tamanho do download: 10.14 MiB

  • Dataset tamanho: 32.99 MiB

  • desdobramentos:

Dividir Exemplos
'test' 5.463
'train' 104.743
'validation' 5.463
  • Características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'question': Text(shape=(), dtype=tf.string),
    'sentence': Text(shape=(), dtype=tf.string),
})
  • citação:
@article{rajpurkar2016squad,
  title={Squad: 100,000+ questions for machine comprehension of text},
  author={Rajpurkar, Pranav and Zhang, Jian and Lopyrev, Konstantin and Liang, Percy},
  journal={arXiv preprint arXiv:1606.05250},
  year={2016}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

cola / rte

  • A inscrição Config: Os conjuntos de dados Reconhecendo Prova Entailment (RTE) vêm de uma série de desafios anuais vinculação textuais. Combinamos os dados de RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) e RTE5 (Bentivogli et al., 2009) .4 Os exemplos são construído com base em notícias e texto da Wikipedia. Convertemos todos os conjuntos de dados em uma divisão de duas classes, onde, para conjuntos de dados de três classes, colapsamos o neutro e a contradição em não vinculação, por questão de consistência.

  • Homepage: https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Tamanho do download: 680.81 KiB

  • Dataset size: 2.15 MiB

  • desdobramentos:

Dividir Exemplos
'test' 3.000
'train' 2.490
'validation' 277
  • Características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • citação:
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

cola / wnli

  • Configuração Descrição: O Winograd Schema Challenge (. Levesque et al, 2011) é uma tarefa de compreensão de leitura em que um sistema deve ler uma frase com um pronome e selecione o referente desse pronome de uma lista de opções. Os exemplos são construídos manualmente para frustrar métodos estatísticos simples: cada um depende de informações contextuais fornecidas por uma única palavra ou frase na frase. Para converter o problema em classificação de pares de frases, construímos pares de frases substituindo o pronome ambíguo por cada referente possível. A tarefa é predizer se a frase com o pronome substituído é acarretada pela frase original. Usamos um pequeno conjunto de avaliação que consiste em novos exemplos derivados de livros de ficção que foram compartilhados em particular pelos autores do corpus original. Enquanto o conjunto de treinamento incluído é balanceado entre duas classes, o conjunto de teste é desequilibrado entre elas (65% sem envolvimento). Além disso, devido a uma peculiaridade dos dados, o conjunto de desenvolvimento é antagônico: as hipóteses às vezes são compartilhadas entre os exemplos de treinamento e desenvolvimento, portanto, se um modelo memorizar os exemplos de treinamento, eles preverão o rótulo incorreto no exemplo do conjunto de desenvolvimento correspondente. Como com QNLI, cada exemplo é avaliado separadamente, portanto, não há uma correspondência sistemática entre a pontuação de um modelo nesta tarefa e sua pontuação na tarefa original não convertida. Chamamos o conjunto de dados convertido de WNLI (Winograd NLI).

  • Homepage: https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html

  • Tamanho do download: 28.32 KiB

  • Dataset size: 198.88 KiB

  • desdobramentos:

Dividir Exemplos
'test' 146
'train' 635
'validation' 71
  • Características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • citação:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

cola / machado

  • A inscrição Config: A manualmente curadoria conjunto de dados de avaliação para análise de grão fino do desempenho do sistema em uma ampla gama de fenômenos lingüísticos. Este conjunto de dados avalia a compreensão de sentenças por meio de problemas de Inferência de Linguagem Natural (NLI). Use um modelo treinado em MulitNLI para produzir previsões para este conjunto de dados.

  • Homepage: https://gluebenchmark.com/diagnostics

  • Tamanho do download: 217.05 KiB

  • Dataset size: 299.16 KiB

  • desdobramentos:

Dividir Exemplos
'test' 1.104
  • Características:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • citação:
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.