¡TFDS ahora admite el formato Croissant 🥐 ! Lea la documentación para saber más.

Se usó la API de Cloud Translation para traducir esta página.

Super pegamento

Descripción :

SuperGLUE ( https://super.gluebenchmark.com/ ) es un nuevo punto de referencia con el estilo de GLUE con un nuevo conjunto de tareas de comprensión de idiomas más difíciles, recursos mejorados y una nueva tabla de clasificación pública.

Documentación adicional : Explore en Papers With Code
Código fuente : tfds.text.SuperGlue
Versiones :
- 1.0.2 (predeterminado): Sin notas de la versión.
Claves supervisadas (Ver as_supervised doc ): None
Figura ( tfds.show_examples ): no compatible.

super_glue/boolq (configuración predeterminada)

Descripción de la configuración : BoolQ (Boolean Questions, Clark et al., 2019a) es una tarea de control de calidad en la que cada ejemplo consta de un breve pasaje y una pregunta de sí/no sobre el pasaje. Las preguntas son proporcionadas de forma anónima y no solicitada por los usuarios del motor de búsqueda de Google, y luego se combinan con un párrafo de un artículo de Wikipedia que contiene la respuesta. Siguiendo el trabajo original, evaluamos con precisión.
Página de inicio: https://github.com/google-research-datasets/boolean-questions
Tamaño de la descarga : 3.93 MiB
Tamaño del conjunto de datos : 10.75 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'test'`	3,245
`'train'`	9,427
`'validation'`	3,270

Estructura de características :

FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'passage': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
idx	Tensor	int32
etiqueta	Etiqueta de clase	int64
paso	Texto	cuerda
pregunta	Texto	cuerda

Ejemplos ( tfds.as_dataframe ):

Cita :

@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento/cb

Descripción de la configuración : CommitmentBank (De Marneffe et al., 2019) es un corpus de textos breves en los que al menos una oración contiene una cláusula incrustada. Cada una de estas cláusulas incrustadas está anotada con el grado en que esperamos que la persona que escribió el texto esté comprometida con la verdad de la cláusula. La tarea resultante se enmarca como una vinculación textual de tres clases en ejemplos extraídos del Wall Street Journal, ficción del British National Corpus y Switchboard. Cada ejemplo consta de una premisa que contiene una cláusula incrustada y la hipótesis correspondiente es la extracción de esa cláusula. Usamos un subconjunto de los datos que tenían una concordancia entre anotadores superior a 0,85. Los datos están desequilibrados (relativamente menos ejemplos neutrales), por lo que evaluamos usando precisión y F1, donde para F1 multiclase calculamos el promedio no ponderado de F1 por clase.
Página de inicio: https://github.com/mcdm/CommitmentBank
Tamaño de la descarga : 73.71 KiB
Tamaño del conjunto de datos : 229.28 KiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'test'`	250
`'train'`	250
`'validation'`	56

Estructura de características :

FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
hipótesis	Texto	cuerda
idx	Tensor	int32
etiqueta	Etiqueta de clase	int64
premisa	Texto	cuerda

Ejemplos ( tfds.as_dataframe ):

Cita :

@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento/copa

Descripción de la configuración : El conjunto de datos Choice Of Plausible Alternatives (COPA, Roemmele et al., 2011) es una tarea de razonamiento causal en la que se le da a un sistema una oración de premisa y dos alternativas posibles. El sistema debe elegir la alternativa que tenga la relación causal más plausible con la premisa. El método utilizado para la construcción de las alternativas asegura que la tarea requiere un razonamiento causal para resolverla. Los ejemplos tratan de posibles causas alternativas o posibles efectos alternativos de la oración de premisa, acompañados de una pregunta simple que elimina la ambigüedad entre los dos tipos de instancias para el modelo. Todos los ejemplos están hechos a mano y se centran en temas de blogs en línea y una enciclopedia relacionada con la fotografía. Siguiendo la recomendación de los autores, evaluamos usando precisión.
Página de inicio: http://people.ict.usc.edu/~gordon/copa.html
Tamaño de la descarga : 42.96 KiB
Tamaño del conjunto de datos : 196.00 KiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'test'`	500
`'train'`	400
`'validation'`	100

Estructura de características :

FeaturesDict({
    'choice1': Text(shape=(), dtype=string),
    'choice2': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
elección1	Texto	cuerda
elección2	Texto	cuerda
idx	Tensor	int32
etiqueta	Etiqueta de clase	int64
premisa	Texto	cuerda
pregunta	Texto	cuerda

Ejemplos ( tfds.as_dataframe ):

Cita :

@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento/multirc

Descripción de la configuración : el conjunto de datos de comprensión de lectura de oraciones múltiples (MultiRC, Khashabi et al., 2018) es una tarea de respuesta a preguntas de verdadero/falso. Cada ejemplo consta de un párrafo de contexto, una pregunta sobre ese párrafo y una lista de posibles respuestas a esa pregunta que deben etiquetarse como verdadero o falso. La respuesta a preguntas (QA) es un problema popular con muchos conjuntos de datos. Usamos MultiRC debido a una serie de propiedades deseables: (i) cada pregunta puede tener múltiples respuestas correctas posibles, por lo que cada par de preguntas y respuestas debe evaluarse independientemente de otros pares, (ii) las preguntas están diseñadas de tal manera que para responder a cada pregunta se requiere extraer hechos de múltiples oraciones de contexto, y (iii) el formato de par de preguntas y respuestas coincide más con la API de otras tareas de SuperGLUE que el control de calidad extractivo basado en intervalos. Los párrafos se extraen de siete dominios que incluyen noticias, ficción y texto histórico.
Página de inicio: https://cogcomp.org/multirc/
Tamaño de la descarga : 1.06 MiB
Tamaño del conjunto de datos : 70.39 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'test'`	9,693
`'train'`	27,243
`'validation'`	4,848

Estructura de características :

FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'idx': FeaturesDict({
        'answer': int32,
        'paragraph': int32,
        'question': int32,
    }),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
responder	Texto	cuerda
idx	CaracterísticasDict
idx/respuesta	Tensor	int32
idx/párrafo	Tensor	int32
idx/pregunta	Tensor	int32
etiqueta	Etiqueta de clase	int64
párrafo	Texto	cuerda
pregunta	Texto	cuerda

Ejemplos ( tfds.as_dataframe ):

Cita :

@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento/registro

Descripción de la configuración : (Reading Comprehension with Commonsense Reasoning Dataset, Zhang et al., 2018) es una tarea de control de calidad de opción múltiple. Cada ejemplo consta de un artículo de noticias y una pregunta estilo Cloze sobre el artículo en el que se oculta una entidad. El sistema debe predecir la entidad enmascarada a partir de una lista dada de posibles entidades en el pasaje provisto, donde la misma entidad puede expresarse usando múltiples formas de superficie diferentes, todas las cuales se consideran correctas. Los artículos se extraen de CNN y Daily Mail. Siguiendo el trabajo original, evaluamos con máximo (sobre todas las menciones) F1 de nivel de token y coincidencia exacta (EM).
Página de inicio: https://sheng-z.github.io/ReCoRD-explorer/
Tamaño de la descarga : 49.36 MiB
Tamaño del conjunto de datos : 166.40 MiB
Almacenamiento automático en caché ( documentación ): Sí (prueba, validación), solo cuando shuffle_files=False (tren)
Divisiones :

Separar	Ejemplos
`'test'`	10,000
`'train'`	100,730
`'validation'`	10,000

Estructura de características :

FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=string)),
    'entities': Sequence(Text(shape=(), dtype=string)),
    'idx': FeaturesDict({
        'passage': int32,
        'query': int32,
    }),
    'passage': Text(shape=(), dtype=string),
    'query': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Forma	Tipo D
	CaracterísticasDict
respuestas	Secuencia (Texto)	(Ninguna,)	cuerda
entidades	Secuencia (Texto)	(Ninguna,)	cuerda
idx	CaracterísticasDict
idx/pasaje	Tensor		int32
idx/consulta	Tensor		int32
paso	Texto		cuerda
consulta	Texto		cuerda

Ejemplos ( tfds.as_dataframe ):

Cita :

@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento/rte

Descripción de la configuración : los conjuntos de datos de reconocimiento de vinculación textual (RTE) provienen de una serie de concursos anuales sobre vinculación textual, el problema de predecir si una oración de premisa dada implica una oración de hipótesis dada (también conocida como inferencia de lenguaje natural, NLI). RTE se incluyó previamente en GLUE, y usamos los mismos datos y formato que antes: fusionamos datos de RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007), y RTE5 (Bentivogli et al., 2009). Todos los conjuntos de datos se combinan y se convierten a una clasificación de dos clases: vinculación y no vinculación. De todas las tareas de GLUE, RTE estuvo entre las que más se beneficiaron del aprendizaje de transferencia, pasando de un rendimiento casi aleatorio (~56 %) en el momento del lanzamiento de GLUE a un 85 % de precisión (Liu et al., 2019c) en el hora de escribir. Sin embargo, dada la brecha de ocho puntos con respecto al desempeño humano, las máquinas aún no resuelven la tarea, y esperamos que la brecha restante sea difícil de cerrar.
Página de inicio: https://aclweb.org/aclwiki/Recognizing_Textual_Entailment
Tamaño de la descarga : 733.32 KiB
Tamaño del conjunto de datos : 2.15 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'test'`	3,000
`'train'`	2,490
`'validation'`	277

Estructura de características :

FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
hipótesis	Texto	cuerda
idx	Tensor	int32
etiqueta	Etiqueta de clase	int64
premisa	Texto	cuerda

Ejemplos ( tfds.as_dataframe ):

Cita :

@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento/wic

Descripción de la configuración : el conjunto de datos de Word-in-Context (WiC, Pilehvar y Camacho-Collados, 2019) admite una tarea de desambiguación del sentido de las palabras como clasificación binaria sobre pares de oraciones. Dadas dos oraciones y una palabra polisémica (de sentido ambiguo) que aparece en ambas oraciones, la tarea es determinar si la palabra se usa con el mismo sentido en ambas oraciones. Las oraciones se extraen de WordNet (Miller, 1995), VerbNet (Schuler, 2005) y Wiktionary. Seguimos el trabajo original y evaluamos con precisión.
Página de inicio: https://pilehvar.github.io/wic/
Tamaño de la descarga : 386.93 KiB
Tamaño del conjunto de datos : 1.67 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'test'`	1,400
`'train'`	5,428
`'validation'`	638

Estructura de características :

FeaturesDict({
    'end1': int32,
    'end2': int32,
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
    'start1': int32,
    'start2': int32,
    'word': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
fin1	Tensor	int32
fin2	Tensor	int32
idx	Tensor	int32
etiqueta	Etiqueta de clase	int64
oracion1	Texto	cuerda
oracion2	Texto	cuerda
inicio1	Tensor	int32
inicio2	Tensor	int32
palabra	Texto	cuerda

Ejemplos ( tfds.as_dataframe ):

Cita :

@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento/wsc

Descripción de la configuración : El Winograd Schema Challenge (WSC, Levesque et al., 2012) es una tarea de comprensión de lectura en la que un sistema debe leer una oración con un pronombre y seleccionar el referente de ese pronombre de una lista de opciones. Dada la dificultad de esta tarea y el margen que aún queda, hemos incluido WSC en SuperGLUE y refundido el conjunto de datos en su forma de correferencia. La tarea se presenta como un problema de clasificación binaria, en oposición a N-opción múltiple, para aislar la capacidad del modelo para comprender los enlaces de correferencia dentro de una oración en oposición a varias otras estrategias que pueden entrar en juego en condiciones de opción múltiple. Con eso en mente, creamos una división con un 65 % de clase mayoritaria negativa en el conjunto de validación, que refleja la distribución del conjunto de prueba oculto, y un 52 % de clase negativa en el conjunto de entrenamiento. Los ejemplos de capacitación y validación se extraen del conjunto de datos original del esquema de Winograd (Levesque et al., 2012), así como de los distribuidos por la organización afiliada Commonsense Reasoning. Los ejemplos de prueba se derivan de libros de ficción y los autores del conjunto de datos original los han compartido con nosotros. Anteriormente, una versión de WSC refundida como NLI incluida en GLUE, conocida como WNLI. No se logró un progreso sustancial en WNLI, y muchas presentaciones optaron por enviar solo predicciones de clase mayoritaria. WNLI se hizo especialmente difícil debido a una división antagónica entre tren y desarrollo: las oraciones de premisa que aparecían en el conjunto de entrenamiento a veces aparecían en el conjunto de desarrollo con una hipótesis diferente y una etiqueta invertida. Si un sistema memorizó el conjunto de entrenamiento sin generalizar de manera significativa, lo cual fue fácil debido al pequeño tamaño del conjunto de entrenamiento, podría funcionar muy por debajo del azar en el conjunto de desarrollo. Eliminamos este diseño contradictorio en la versión SuperGLUE de WSC asegurándonos de que no se compartan frases entre los conjuntos de entrenamiento, validación y prueba.

Sin embargo, los conjuntos de validación y prueba provienen de diferentes dominios, y el conjunto de validación consta de ejemplos ambiguos, de modo que cambiar una palabra de frase no nominal cambiará las dependencias de correferencia en la oración. El conjunto de prueba consta solo de ejemplos más sencillos, con una gran cantidad de frases nominales (y, por lo tanto, más opciones para el modelo), pero poca o ninguna ambigüedad.

Página de inicio: https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
Tamaño de la descarga : 31.98 KiB
Tamaño del conjunto de datos : 219.70 KiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'test'`	146
`'train'`	554
`'validation'`	104

Estructura de características :

FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
idx	Tensor	int32
etiqueta	Etiqueta de clase	int64
span1_index	Tensor	int32
span1_texto	Texto	cuerda
span2_index	Tensor	int32
span2_texto	Texto	cuerda
texto	Texto	cuerda

Ejemplos ( tfds.as_dataframe ):

Cita :

@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.fijo

Descripción de la configuración : El Winograd Schema Challenge (WSC, Levesque et al., 2012) es una tarea de comprensión de lectura en la que un sistema debe leer una oración con un pronombre y seleccionar el referente de ese pronombre de una lista de opciones. Dada la dificultad de esta tarea y el margen que aún queda, hemos incluido WSC en SuperGLUE y refundido el conjunto de datos en su forma de correferencia. La tarea se presenta como un problema de clasificación binaria, en oposición a N-opción múltiple, para aislar la capacidad del modelo para comprender los enlaces de correferencia dentro de una oración en oposición a varias otras estrategias que pueden entrar en juego en condiciones de opción múltiple. Con eso en mente, creamos una división con un 65 % de clase mayoritaria negativa en el conjunto de validación, que refleja la distribución del conjunto de prueba oculto, y un 52 % de clase negativa en el conjunto de entrenamiento. Los ejemplos de capacitación y validación se extraen del conjunto de datos original del esquema de Winograd (Levesque et al., 2012), así como de los distribuidos por la organización afiliada Commonsense Reasoning. Los ejemplos de prueba se derivan de libros de ficción y los autores del conjunto de datos original los han compartido con nosotros. Anteriormente, una versión de WSC refundida como NLI incluida en GLUE, conocida como WNLI. No se logró un progreso sustancial en WNLI, y muchas presentaciones optaron por enviar solo predicciones de clase mayoritaria. WNLI se hizo especialmente difícil debido a una división antagónica entre tren y desarrollo: las oraciones de premisa que aparecían en el conjunto de entrenamiento a veces aparecían en el conjunto de desarrollo con una hipótesis diferente y una etiqueta invertida. Si un sistema memorizó el conjunto de entrenamiento sin generalizar de manera significativa, lo cual fue fácil debido al pequeño tamaño del conjunto de entrenamiento, podría funcionar muy por debajo del azar en el conjunto de desarrollo. Eliminamos este diseño contradictorio en la versión SuperGLUE de WSC asegurándonos de que no se compartan frases entre los conjuntos de entrenamiento, validación y prueba.

Esta versión corrige problemas en los que los tramos no son en realidad subcadenas del texto.

Página de inicio: https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
Tamaño de la descarga : 31.98 KiB
Tamaño del conjunto de datos : 219.70 KiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'test'`	146
`'train'`	554
`'validation'`	104

Estructura de características :

FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
idx	Tensor	int32
etiqueta	Etiqueta de clase	int64
span1_index	Tensor	int32
span1_texto	Texto	cuerda
span2_index	Tensor	int32
span2_texto	Texto	cuerda
texto	Texto	cuerda

Ejemplos ( tfds.as_dataframe ):

Cita :

@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento/axb

Descripción de configuración : un conjunto de datos de diagnóstico construido por expertos que prueba automáticamente los modelos para una amplia gama de conocimientos lingüísticos, de sentido común y del mundo. Cada ejemplo en este diagnóstico de amplia cobertura es un par de oraciones etiquetadas con una relación de vinculación de tres vías (implicación, neutral o contradicción) y etiquetadas con etiquetas que indican los fenómenos que caracterizan la relación entre las dos oraciones. Los envíos a la tabla de clasificación de GLUE deben incluir predicciones del clasificador MultiNLI de la presentación en el conjunto de datos de diagnóstico, y los análisis de los resultados se muestran junto con la tabla de clasificación principal. Dado que esta tarea de diagnóstico de amplia cobertura ha resultado difícil para los mejores modelos, la mantenemos en SuperGLUE. Sin embargo, dado que MultiNLI no forma parte de SuperGLUE, integramos la contradicción y la neutralidad en una única etiqueta sin implicaciones y solicitamos que los envíos incluyan predicciones sobre el conjunto resultante del modelo utilizado para la tarea RTE.
Página de inicio: https://gluebenchmark.com/diagnostics
Tamaño de la descarga : 33.15 KiB
Tamaño del conjunto de datos : 290.53 KiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'test'`	1,104

Estructura de características :

FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
idx	Tensor	int32
etiqueta	Etiqueta de clase	int64
oracion1	Texto	cuerda
oracion2	Texto	cuerda

Ejemplos ( tfds.as_dataframe ):

Cita :

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_pegamento/axg

Descripción de la configuración : Winogender está diseñado para medir el sesgo de género en los sistemas de resolución de correferencias. Usamos la versión Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) que presenta a Winogender como una tarea de vinculación textual. Cada ejemplo consta de una oración de premisa con un pronombre masculino o femenino y una hipótesis que da un posible antecedente del pronombre. Los ejemplos ocurren en pares mínimos, donde la única diferencia entre un ejemplo y su par es el género del pronombre en la premisa. El rendimiento en Winogender se mide tanto con precisión como con la puntuación de paridad de género: el porcentaje de pares mínimos para los que las predicciones son las mismas. Notamos que un sistema puede obtener trivialmente un puntaje de paridad de género perfecto al adivinar la misma clase para todos los ejemplos, por lo que un puntaje de paridad de género alto no tiene sentido a menos que esté acompañado de una alta precisión. Como prueba de diagnóstico del sesgo de género, consideramos que los esquemas tienen un valor predictivo positivo alto y un valor predictivo negativo bajo; es decir, pueden demostrar la presencia de sesgo de género en un sistema, pero no probar su ausencia.
Página de inicio: https://github.com/rudinger/winogender-schemas
Tamaño de la descarga : 10.17 KiB
Tamaño del conjunto de datos : 69.75 KiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Separar	Ejemplos
`'test'`	356

Estructura de características :

FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
hipótesis	Texto	cuerda
idx	Tensor	int32
etiqueta	Etiqueta de clase	int64
premisa	Texto	cuerda

Ejemplos ( tfds.as_dataframe ):

Cita :

@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.