Ayuda a proteger la Gran Barrera de Coral con TensorFlow en Kaggle Únete Challenge

Super pegamento

  • Descripción:

Superglue ( https://super.gluebenchmark.com/ ) es un nuevo punto de referencia de estilo después de pegamento con un nuevo conjunto de tareas de lenguaje más difícil de entender, la mejora de los recursos, y una nueva clasificación público.

super_glue / boolq (configuración predeterminada)

  • Descripción config: BoolQ (. Preguntas de Boole, Clark et al, 2019a) es una tarea de control de calidad en cada ejemplo consiste en un pasaje corto y una pregunta sí / no sobre el pasaje. Las preguntas son proporcionadas de forma anónima y no solicitada por los usuarios del motor de búsqueda de Google, y luego se emparejan con un párrafo de un artículo de Wikipedia que contiene la respuesta. Siguiendo el trabajo original, evaluamos con precisión.

  • Inicio: https://github.com/google-research-datasets/boolean-questions

  • Tamaño del paquete: 3.93 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 3245
'train' 9.427
'validation' 3270
  • características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'passage': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Cita:
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento / cb

  • Descripción Config: (. De Marneffe et al, 2019) El CommitmentBank es un corpus de textos cortos en los que al menos una frase contiene una cláusula incrustada. Cada una de estas cláusulas incrustadas está anotada con el grado en que esperamos que la persona que escribió el texto esté comprometida con la verdad de la cláusula. La tarea resultante se enmarca como una vinculación textual de tres clases sobre ejemplos extraídos del Wall Street Journal, ficción del British National Corpus y Switchboard. Cada ejemplo consta de una premisa que contiene una cláusula incrustada y la hipótesis correspondiente es la extracción de esa cláusula. Usamos un subconjunto de los datos que tenían un acuerdo entre los anotadores por encima de 0,85. Los datos están desequilibrados (relativamente menos ejemplos neutrales), por lo que evaluamos usando precisión y F1, donde para F1 multiclase calculamos el promedio no ponderado de F1 por clase.

  • Inicio: https://github.com/mcdm/CommitmentBank

  • Tamaño del paquete: 73.71 KiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 250
'train' 250
'validation' 56
  • características:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Cita:
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento / copa

  • Descripción config: la elección de alternativas plausibles (. COPA, Roemmele et al, 2011) conjunto de datos es una tarea de razonamiento causal en la que un sistema se le dio una sentencia premisa y dos alternativas posibles. El sistema debe elegir la alternativa que tenga la relación causal más plausible con la premisa. El método utilizado para la construcción de las alternativas asegura que la tarea requiere un razonamiento causal para resolver. Los ejemplos se ocupan de posibles causas alternativas o posibles efectos alternativos de la oración de premisa, acompañados de una pregunta simple que elimina la ambigüedad entre los dos tipos de instancia para el modelo. Todos los ejemplos están hechos a mano y se centran en temas de blogs en línea y una enciclopedia relacionada con la fotografía. Siguiendo la recomendación de los autores, evaluamos usando precisión.

  • Inicio: http://people.ict.usc.edu/~gordon/copa.html

  • Tamaño del paquete: 42.96 KiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 500
'train' 400
'validation' 100
  • características:
FeaturesDict({
    'choice1': Text(shape=(), dtype=tf.string),
    'choice2': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Cita:
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento / multirc

  • Descripción config: El Multi-Sentencia comprensión de lectura de datos (. MultiRC, Khashabi et al, 2018) es un verdadero / falso tarea de pregunta-respuesta. Cada ejemplo consta de un párrafo de contexto, una pregunta sobre ese párrafo y una lista de posibles respuestas a esa pregunta que debe etiquetarse como verdadera o falsa. La respuesta a preguntas (QA) es un problema popular con muchos conjuntos de datos. Usamos MultiRC debido a una serie de propiedades deseables: (i) cada pregunta puede tener múltiples respuestas correctas posibles, por lo que cada par de pregunta-respuesta debe evaluarse independientemente de otros pares, (ii) las preguntas están diseñadas de tal manera que responder a cada pregunta requiere extraer hechos de múltiples oraciones de contexto, y (iii) el formato del par de preguntas y respuestas se asemeja más al API de otras tareas de SuperGLUE que el QA extractivo basado en intervalos. Los párrafos se extraen de siete dominios que incluyen noticias, ficción y texto histórico.

  • Inicio: https://cogcomp.org/multirc/

  • Tamaño del paquete: 1.06 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 9,693
'train' 27,243
'validation' 4.848
  • características:
FeaturesDict({
    'answer': Text(shape=(), dtype=tf.string),
    'idx': FeaturesDict({
        'answer': tf.int32,
        'paragraph': tf.int32,
        'question': tf.int32,
    }),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Cita:
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento / registro

  • Descripción Config: (. Comprensión de lectura con Commonsense Razonamiento conjunto de datos, Zhang et al, 2018) es una tarea de control de calidad de elección múltiple. Cada ejemplo consta de un artículo de noticias y una pregunta al estilo Cloze sobre el artículo en el que se oculta una entidad. El sistema debe predecir la entidad enmascarada a partir de una lista dada de posibles entidades en el pasaje proporcionado, donde la misma entidad puede expresarse utilizando múltiples formas de superficie diferentes, todas las cuales se consideran correctas. Los artículos provienen de CNN y Daily Mail. Siguiendo el trabajo original, evaluamos con max (sobre todas las menciones) nivel de token F1 y coincidencia exacta (EM).

  • Inicio: https://sheng-z.github.io/ReCoRD-explorer/

  • Tamaño del paquete: 49.36 MiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 10,000
'train' 100,730
'validation' 10,000
  • características:
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=tf.string)),
    'entities': Sequence(Text(shape=(), dtype=tf.string)),
    'idx': FeaturesDict({
        'passage': tf.int32,
        'query': tf.int32,
    }),
    'passage': Text(shape=(), dtype=tf.string),
    'query': Text(shape=(), dtype=tf.string),
})
  • Cita:
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento / rte

  • Descripción config: Los Reconociendo Pruebas de implicación (RTE) de datos provienen de una serie de concursos anuales de implicación textual, el problema de predecir si una oración dada premisa conlleva una sentencia determinada hipótesis (también conocida como la inferencia de lenguaje natural, NLI). RTE se incluyó anteriormente en GLUE, y usamos los mismos datos y formato que antes: fusionamos datos de RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) y RTE5 (Bentivogli et al., 2009). Todos los conjuntos de datos se combinan y convierten a una clasificación de dos clases: vinculación y no vinculación. De todas las tareas de GLUE, RTE fue una de las que más se beneficiaron de la transferencia de aprendizaje, pasando de un rendimiento casi aleatorio (~ 56%) en el momento del lanzamiento de GLUE a un 85% de precisión (Liu et al., 2019c) en el tiempo de escritura. Sin embargo, dada la brecha de ocho puntos con respecto al desempeño humano, la tarea aún no está resuelta por las máquinas, y esperamos que la brecha restante sea difícil de cerrar.

  • Inicio: https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Tamaño del paquete: 733.32 KiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 3000
'train' 2,490
'validation' 277
  • características:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Cita:
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento / wic

  • Descripción config: La Palabra-en-contexto (WIC, Pilehvar y Camacho-Collados, 2019) del conjunto de datos es compatible con un sentido de las palabras tarea de desambiguación elenco como la clasificación binaria sobre pares de frases. Dadas dos oraciones y una palabra polisémica (con sentido ambiguo) que aparece en ambas oraciones, la tarea es determinar si la palabra se usa con el mismo sentido en ambas oraciones. Las oraciones se extraen de WordNet (Miller, 1995), VerbNet (Schuler, 2005) y Wiktionary. Seguimos el trabajo original y evaluamos usando precisión.

  • Inicio: https://pilehvar.github.io/wic/

  • Tamaño del paquete: 386.93 KiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 1.400
'train' 5.428
'validation' 638
  • características:
FeaturesDict({
    'end1': tf.int32,
    'end2': tf.int32,
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
    'start1': tf.int32,
    'start2': tf.int32,
    'word': Text(shape=(), dtype=tf.string),
})
  • Cita:
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc

  • Descripción config: El esquema Winograd Challenge (. CSM, Levesque et al, 2012) es una tarea de comprensión de lectura en el que un sistema debe leer una oración con un pronombre y seleccione el referente de ese pronombre de una lista de opciones. Dada la dificultad de esta tarea y el margen de maniobra que aún queda, hemos incluido WSC en SuperGLUE y reformulado el conjunto de datos en su forma de correferencia. La tarea se presenta como un problema de clasificación binaria, a diferencia de N-opción múltiple, con el fin de aislar la capacidad del modelo para comprender los vínculos de correferencia dentro de una oración en contraposición a varias otras estrategias que pueden entrar en juego en condiciones de opción múltiple. Teniendo esto en cuenta, creamos una división con un 65% de clase de mayoría negativa en el conjunto de validación, lo que refleja la distribución del conjunto de pruebas ocultas y un 52% de clase negativa en el conjunto de entrenamiento. Los ejemplos de capacitación y validación se extrajeron del conjunto de datos del esquema Winograd original (Levesque et al., 2012), así como de los distribuidos por la organización afiliada Commonsense Reasoning. Los ejemplos de prueba se derivan de libros de ficción y los autores del conjunto de datos original los han compartido con nosotros. Anteriormente, una versión de WSC refundida como NLI incluida en GLUE, conocida como WNLI. No se logró ningún progreso sustancial en WNLI, y muchas presentaciones optaron por presentar solo predicciones de la clase mayoritaria. WNLI se hizo especialmente difícil debido a una división de tren / desarrollo adversario: las oraciones de premisa que aparecían en el conjunto de entrenamiento a veces aparecían en el conjunto de desarrollo con una hipótesis diferente y una etiqueta invertida. Si un sistema memorizaba el conjunto de entrenamiento sin generalizar de manera significativa, lo cual era fácil debido al pequeño tamaño del conjunto de entrenamiento, podría funcionar muy por debajo de la probabilidad en el conjunto de desarrollo. Eliminamos este diseño contradictorio en la versión SuperGLUE de WSC asegurándonos de que no se compartan oraciones entre los conjuntos de entrenamiento, validación y prueba.

Sin embargo, los conjuntos de validación y prueba provienen de diferentes dominios, y el conjunto de validación consta de ejemplos ambiguos, de modo que cambiar una palabra sin frase nominal cambiará las dependencias de correferencia en la oración. El conjunto de prueba consta solo de ejemplos más sencillos, con una gran cantidad de frases nominales (y, por lo tanto, más opciones para el modelo), pero poca o ninguna ambigüedad.

Separar Ejemplos de
'test' 146
'train' 554
'validation' 104
  • características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • Cita:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc.fixed

  • Descripción config: El esquema Winograd Challenge (. CSM, Levesque et al, 2012) es una tarea de comprensión de lectura en el que un sistema debe leer una oración con un pronombre y seleccione el referente de ese pronombre de una lista de opciones. Dada la dificultad de esta tarea y el margen de maniobra que aún queda, hemos incluido WSC en SuperGLUE y reformulado el conjunto de datos en su forma de correferencia. La tarea se presenta como un problema de clasificación binaria, a diferencia de N-opción múltiple, con el fin de aislar la capacidad del modelo para comprender los vínculos de correferencia dentro de una oración en contraposición a varias otras estrategias que pueden entrar en juego en condiciones de opción múltiple. Teniendo esto en cuenta, creamos una división con un 65% de clase de mayoría negativa en el conjunto de validación, lo que refleja la distribución del conjunto de pruebas ocultas y un 52% de clase negativa en el conjunto de entrenamiento. Los ejemplos de capacitación y validación se extrajeron del conjunto de datos del esquema Winograd original (Levesque et al., 2012), así como de los distribuidos por la organización afiliada Commonsense Reasoning. Los ejemplos de prueba se derivan de libros de ficción y los autores del conjunto de datos original los han compartido con nosotros. Anteriormente, una versión de WSC refundida como NLI incluida en GLUE, conocida como WNLI. No se logró ningún progreso sustancial en WNLI, y muchas presentaciones optaron por presentar solo predicciones de la clase mayoritaria. WNLI se hizo especialmente difícil debido a una división de tren / desarrollo adversario: las oraciones de premisa que aparecían en el conjunto de entrenamiento a veces aparecían en el conjunto de desarrollo con una hipótesis diferente y una etiqueta invertida. Si un sistema memorizaba el conjunto de entrenamiento sin generalizar de manera significativa, lo cual era fácil debido al pequeño tamaño del conjunto de entrenamiento, podría funcionar muy por debajo de la probabilidad en el conjunto de desarrollo. Eliminamos este diseño contradictorio en la versión SuperGLUE de WSC asegurándonos de que no se compartan oraciones entre los conjuntos de entrenamiento, validación y prueba.

Sin embargo, los conjuntos de validación y prueba provienen de diferentes dominios, y el conjunto de validación consta de ejemplos ambiguos, de modo que cambiar una palabra sin frase nominal cambiará las dependencias de correferencia en la oración. El conjunto de prueba consta solo de ejemplos más sencillos, con una gran cantidad de frases nominales (y, por lo tanto, más opciones para el modelo), pero poca o ninguna ambigüedad.

Esta versión corrige problemas en los que los intervalos no son en realidad subcadenas del texto.

Separar Ejemplos de
'test' 146
'train' 554
'validation' 104
  • características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • Cita:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento / axb

  • Descripción Config: An, el conjunto de datos de diagnóstico experto-construido que pone a prueba automáticamente modelos para una amplia gama de, común, y conocimientos lingüísticos mundo. Cada ejemplo en este diagnóstico de amplia cobertura es un par de oraciones etiquetado con una relación de implicación de tres vías (vinculación, neutral o contradicción) y etiquetado con etiquetas que indican los fenómenos que caracterizan la relación entre las dos oraciones. Los envíos a la tabla de clasificación GLUE deben incluir predicciones del clasificador MultiNLI de la presentación en el conjunto de datos de diagnóstico, y los análisis de los resultados se muestran junto con la tabla de clasificación principal. Dado que esta tarea de diagnóstico de amplia cobertura ha resultado difícil para los mejores modelos, la conservamos en SuperGLUE. Sin embargo, dado que MultiNLI no es parte de SuperGLUE, colapsamos contradicción y neutral en una sola etiqueta not_entailment, y solicitamos que las presentaciones incluyan predicciones sobre el conjunto resultante del modelo usado para la tarea RTE.

  • Inicio: https://gluebenchmark.com/diagnostics

  • Tamaño del paquete: 33.15 KiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 1,104
  • características:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Cita:
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / axg

  • Descripción config: Winogender está diseñado para medir el sesgo de género en los sistemas de resolución de correferencia. Usamos la versión Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) que presenta a Winogender como una tarea de vinculación textual. Cada ejemplo consta de una oración de premisa con un pronombre masculino o femenino y una hipótesis que da un posible antecedente del pronombre. Los ejemplos ocurren en pares mínimos, donde la única diferencia entre un ejemplo y su par es el género del pronombre en la premisa. El rendimiento en Winogender se mide tanto con precisión como con la puntuación de paridad de género: el porcentaje de pares mínimos para los que las predicciones son las mismas. Observamos que un sistema puede obtener trivialmente una puntuación perfecta de paridad de género adivinando la misma clase para todos los ejemplos, por lo que una puntuación alta de paridad de género no tiene sentido a menos que esté acompañada de una alta precisión. Como prueba de diagnóstico del sesgo de género, consideramos que los esquemas tienen un valor predictivo positivo alto y un valor predictivo negativo bajo; es decir, pueden demostrar la presencia de prejuicios de género en un sistema, pero no probar su ausencia.

  • Inicio: https://github.com/rudinger/winogender-schemas

  • Tamaño del paquete: 10.17 KiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 356
  • características:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Cita:
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.