pegamento

  • Descripción:

COLA, la comprensión de referencia Evaluación General Idioma ( https://gluebenchmark.com/ ) es una colección de recursos para la formación, la evaluación y el análisis de lenguaje natural comprensión de los sistemas.

pegamento / cola (configuración predeterminada)

  • Descripción config: El Corpus Lingüístico de aceptabilidad consiste en juicios de aceptabilidad inglés extraídos de libros y artículos de revistas sobre la teoría lingüística. Cada ejemplo es una secuencia de palabras con anotaciones sobre si se trata de una oración gramatical en inglés.

  • Inicio: https://nyu-mll.github.io/CoLA/

  • Tamaño del paquete: 368.14 KiB

  • Conjunto de datos de tamaño: 965.49 KiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 1.063
'train' 8.551
'validation' 1.043
  • características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence': Text(shape=(), dtype=tf.string),
})
  • Cita:
@article{warstadt2018neural,
  title={Neural Network Acceptability Judgments},
  author={Warstadt, Alex and Singh, Amanpreet and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1805.12471},
  year={2018}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento / sst2

  • Descripción config: El sentimiento de Stanford Treebank se compone de frases de críticas de películas y anotaciones humanos de su sentimiento. La tarea consiste en predecir el sentimiento de una oración determinada. Usamos la división de clases bidireccional (positiva / negativa) y solo usamos etiquetas a nivel de oración.

  • Inicio: https://nlp.stanford.edu/sentiment/index.html

  • Tamaño del paquete: 7.09 MiB

  • Conjunto de datos de tamaño: 7.22 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 1.821
'train' 67,349
'validation' 872
  • características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence': Text(shape=(), dtype=tf.string),
})
  • Cita:
@inproceedings{socher2013recursive,
  title={Recursive deep models for semantic compositionality over a sentiment treebank},
  author={Socher, Richard and Perelygin, Alex and Wu, Jean and Chuang, Jason and Manning, Christopher D and Ng, Andrew and Potts, Christopher},
  booktitle={Proceedings of the 2013 conference on empirical methods in natural language processing},
  pages={1631--1642},
  year={2013}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento / mrpc

  • Descripción config: La investigación de Microsoft Paráfrasis Corpus (Dolan y Brockett, 2005) es un corpus de pares de frases extraída de forma automática a partir de fuentes de noticias en línea, con anotaciones para humanos si las oraciones en la pareja son semánticamente equivalentes.

  • Inicio: https://www.microsoft.com/en-us/download/details.aspx?id=52398

  • Tamaño del paquete: 1.43 MiB

  • Conjunto de datos de tamaño: 1.74 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 1,725
'train' 3.668
'validation' 408
  • características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Cita:
@inproceedings{dolan2005automatically,
  title={Automatically constructing a corpus of sentential paraphrases},
  author={Dolan, William B and Brockett, Chris},
  booktitle={Proceedings of the Third International Workshop on Paraphrasing (IWP2005)},
  year={2005}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento / qqp

  • Descripción config: El conjunto de datos Quora pregunta Pairs2 es una colección de pares de interrogación desde el sitio web de preguntas y respuestas de la comunidad Quora. La tarea consiste en determinar si un par de preguntas son semánticamente equivalentes.

  • Inicio: https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

  • Tamaño del paquete: 39.76 MiB

  • Conjunto de datos de tamaño: 150.37 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 390,965
'train' 363,846
'validation' 40.430
  • características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'question1': Text(shape=(), dtype=tf.string),
    'question2': Text(shape=(), dtype=tf.string),
})
  • Cita:
@online{WinNT,
  author = {Iyer, Shankar and Dandekar, Nikhil and Csernai, Kornel},
  title = {First Quora Dataset Release: Question Pairs},
  year = 2017,
  url = {https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs},
  urldate = {2019-04-03}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento / stsb

  • Descripción config: El Índice de referencia semántica Pruebas Similitud (. Cer et al, 2017) es una colección de pares de frases extraídas de titulares de noticias, vídeo e imagen, subtítulos y datos de inferencia lenguaje natural. Cada par está anotado por humanos con una puntuación de similitud de 1 a 5.

  • Inicio: http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark

  • Tamaño del paquete: 784.05 KiB

  • Conjunto de datos de tamaño: 1.58 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 1.379
'train' 5.749
'validation' 1500
  • características:
FeaturesDict({
    'idx': tf.int32,
    'label': tf.float32,
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Cita:
@article{cer2017semeval,
  title={Semeval-2017 task 1: Semantic textual similarity-multilingual and cross-lingual focused evaluation},
  author={Cer, Daniel and Diab, Mona and Agirre, Eneko and Lopez-Gazpio, Inigo and Specia, Lucia},
  journal={arXiv preprint arXiv:1708.00055},
  year={2017}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento / mnli

  • Descripción config: El Multi-Lenguaje Natural Género Inferencia Corpus es una colección de pares de frases crowdsourced con anotaciones implicación textual. Dada una oración de premisa y una oración de hipótesis, la tarea es predecir si la premisa implica la hipótesis (implicación), contradice la hipótesis (contradicción) o ninguna de las dos (neutral). Las oraciones de la premisa se recopilan de diez fuentes diferentes, que incluyen discursos transcritos, ficción e informes gubernamentales. Usamos el conjunto de pruebas estándar, para el cual obtuvimos etiquetas privadas de los autores, y evaluamos tanto en la sección coincidente (en el dominio) como en la no coincidente (dominio cruzado). También usamos y recomendamos el corpus SNLI como 550k ejemplos de datos de entrenamiento auxiliares.

  • Inicio: http://www.nyu.edu/projects/bowman/multinli/

  • Tamaño del paquete: 298.29 MiB

  • Conjunto de datos de tamaño: 100.56 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test_matched' 9,796
'test_mismatched' 9,847
'train' 392,702
'validation_matched' 9,815
'validation_mismatched' 9,832
  • características:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Cita:
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento / mnli_mismatched

  • Descripción config: La validación no coinciden y escisiones de prueba de MnlI. Consulte el "mnli" BuilderConfig para obtener información adicional.

  • Inicio: http://www.nyu.edu/projects/bowman/multinli/

  • Tamaño del paquete: 298.29 MiB

  • Conjunto de datos de tamaño: 4.79 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 9,847
'validation' 9,832
  • características:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Cita:
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento / mnli_matched

  • Descripción Config: La validación emparejado y escisiones de prueba de MnlI. Consulte el "mnli" BuilderConfig para obtener información adicional.

  • Inicio: http://www.nyu.edu/projects/bowman/multinli/

  • Tamaño del paquete: 298.29 MiB

  • Conjunto de datos de tamaño: 4.58 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 9,796
'validation' 9,815
  • características:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Cita:
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento / qnli

  • Descripción config: El Stanford de Respuestas conjunto de datos es un conjunto de datos de preguntas y respuestas que consiste en pares de preguntas de párrafo, donde una de las frases en el párrafo (extraído de Wikipedia) contiene la respuesta a la pregunta correspondiente (escrito por un anotador). Convertimos la tarea en una clasificación de pares de oraciones formando un par entre cada pregunta y cada oración en el contexto correspondiente, y filtrando los pares con poca superposición léxica entre la pregunta y la oración de contexto. La tarea es determinar si la oración de contexto contiene la respuesta a la pregunta. Esta versión modificada de la tarea original elimina el requisito de que el modelo seleccione la respuesta exacta, pero también elimina los supuestos simplificadores de que la respuesta siempre está presente en la entrada y que la superposición léxica es una señal confiable.

  • Inicio: https://rajpurkar.github.io/SQuAD-explorer/

  • Tamaño del paquete: 10.14 MiB

  • Conjunto de datos de tamaño: 32.99 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 5.463
'train' 104,743
'validation' 5.463
  • características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'question': Text(shape=(), dtype=tf.string),
    'sentence': Text(shape=(), dtype=tf.string),
})
  • Cita:
@article{rajpurkar2016squad,
  title={Squad: 100,000+ questions for machine comprehension of text},
  author={Rajpurkar, Pranav and Zhang, Jian and Lopyrev, Konstantin and Liang, Percy},
  journal={arXiv preprint arXiv:1606.05250},
  year={2016}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento / rte

  • Descripción config: Los Reconociendo Pruebas de implicación (RTE) de datos provienen de una serie de retos anuales implicación textual. Combinamos los datos de RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) y RTE5 (Bentivogli et al., 2009). construido en base a noticias y texto de Wikipedia. Convertimos todos los conjuntos de datos en una división de dos clases, donde para los conjuntos de datos de tres clases colapsamos neutral y la contradicción en no implicación, por coherencia.

  • Inicio: https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Tamaño del paquete: 680.81 KiB

  • Conjunto de datos de tamaño: 2.15 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 3000
'train' 2,490
'validation' 277
  • características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Cita:
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento / wnli

  • Descripción config: El esquema Winograd Challenge (. Levesque et al, 2011) es una tarea de comprensión de lectura en el que un sistema debe leer una oración con un pronombre y seleccione el referente de ese pronombre de una lista de opciones. Los ejemplos se construyen manualmente para frustrar métodos estadísticos simples: cada uno depende de la información contextual proporcionada por una sola palabra o frase en la oración. Para convertir el problema en una clasificación de pares de oraciones, construimos pares de oraciones reemplazando el pronombre ambiguo con cada posible referente. La tarea consiste en predecir si la oración con el pronombre sustituido está relacionada con la oración original. Utilizamos un pequeño conjunto de evaluación que consta de nuevos ejemplos derivados de libros de ficción que fueron compartidos de forma privada por los autores del corpus original. Si bien el conjunto de entrenamiento incluido está equilibrado entre dos clases, el conjunto de prueba está desequilibrado entre ellas (65% no implicación). Además, debido a una peculiaridad de los datos, el conjunto de desarrollo es contradictorio: las hipótesis a veces se comparten entre los ejemplos de entrenamiento y desarrollo, por lo que si un modelo memoriza los ejemplos de entrenamiento, predecirán la etiqueta incorrecta en el ejemplo del conjunto de desarrollo correspondiente. Al igual que con QNLI, cada ejemplo se evalúa por separado, por lo que no existe una correspondencia sistemática entre la puntuación de un modelo en esta tarea y su puntuación en la tarea original no convertida. Llamamos al conjunto de datos convertido WNLI (Winograd NLI).

  • Inicio: https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html

  • Tamaño del paquete: 28.32 KiB

  • Conjunto de datos de tamaño: 198.88 KiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 146
'train' 635
'validation' 71
  • características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Cita:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

pegamento / hacha

  • Descripción Config: A curada manualmente el conjunto de datos de evaluación para el análisis de grano fino del rendimiento del sistema en una amplia gama de fenómenos lingüísticos. Este conjunto de datos evalúa la comprensión de oraciones a través de problemas de inferencia del lenguaje natural (NLI). Utilice un modelo entrenado en MulitNLI para producir predicciones para este conjunto de datos.

  • Inicio: https://gluebenchmark.com/diagnostics

  • Tamaño del paquete: 217.05 KiB

  • Conjunto de datos de tamaño: 299.16 KiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 1,104
  • características:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Cita:
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.