super colle

  • Description:

Superglue ( https://super.gluebenchmark.com/ ) est une nouvelle référence de style après COLLE avec une nouvelle série de comprendre les tâches linguistiques plus difficiles, l' amélioration des ressources, et un nouveau leaderboard public.

super_glue/boolq (configuration par défaut)

  • Description Config: BoolQ (. Questions booléennes, Clark et al, 2019a) est une tâche d'AQ où chaque exemple se compose d'un court passage et un oui / non question sur le passage. Les questions sont fournies de manière anonyme et non sollicitée par les utilisateurs du moteur de recherche Google, puis associées à un paragraphe d'un article de Wikipédia contenant la réponse. Suite au travail original, nous évaluons avec précision.

  • Page d' accueil: https://github.com/google-research-datasets/boolean-questions

  • Taille du téléchargement: 3.93 MiB

  • scissions:

Diviser Exemples
'test' 3.245
'train' 9 427
'validation' 3 270
  • Caractéristiques:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'passage': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • citation:
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/cb

  • Description Config: (. De Marneffe et al, 2019) Le CommitmentBank est un corpus de textes courts dans lesquels au moins une phrase contient une clause intégrée. Chacune de ces clauses incorporées est annotée avec le degré auquel nous nous attendons à ce que la personne qui a écrit le texte s'engage à la vérité de la clause. La tâche résultante est présentée comme une implication textuelle en trois classes sur des exemples tirés du Wall Street Journal, de la fiction du British National Corpus et de Switchboard. Chaque exemple consiste en une prémisse contenant une clause incorporée et l'hypothèse correspondante est l'extraction de cette clause. Nous utilisons un sous-ensemble de données dont l'accord inter-annotateur est supérieur à 0,85. Les données sont déséquilibrées (relativement moins d'exemples neutres), nous évaluons donc en utilisant la précision et F1, où pour plusieurs classes F1 nous calculons la moyenne non pondérée des F1 par classe.

  • Page d' accueil: https://github.com/mcdm/CommitmentBank

  • Taille du téléchargement: 73.71 KiB

  • scissions:

Diviser Exemples
'test' 250
'train' 250
'validation' 56
  • Caractéristiques:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • citation:
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/copa

  • Description Config: Le choix de jeu de données Plausible Alternatives (. COPA, Roemmele et al, 2011) est une tâche de raisonnement causal dans lequel un système est condamné à une peine de principe et deux alternatives possibles. Le système doit choisir l'alternative qui a la relation causale la plus plausible avec la prémisse. La méthode utilisée pour la construction des alternatives garantit que la tâche nécessite un raisonnement causal à résoudre. Les exemples traitent soit de causes possibles alternatives, soit d'effets possibles alternatifs de la phrase de prémisse, accompagnés d'une simple question désambiguïsante entre les deux types d'instances pour le modèle. Tous les exemples sont fabriqués à la main et se concentrent sur des sujets de blogs en ligne et d'une encyclopédie liée à la photographie. Suite à la recommandation des auteurs, nous évaluons en utilisant l'exactitude.

  • Page d' accueil: http://people.ict.usc.edu/~gordon/copa.html

  • Taille du téléchargement: 42.96 KiB

  • scissions:

Diviser Exemples
'test' 500
'train' 400
'validation' 100
  • Caractéristiques:
FeaturesDict({
    'choice1': Text(shape=(), dtype=tf.string),
    'choice2': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • citation:
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/multirc

  • Description Config: Le jeu de données de lecture multi-Comprehension Phrase (. MultiRC, Khashabi et al, 2018) est un vrai / faux tâches répondre à la question. Chaque exemple se compose d'un paragraphe de contexte, d'une question sur ce paragraphe et d'une liste de réponses possibles à cette question qui doivent être étiquetées comme vraies ou fausses. La question-réponse (QA) est un problème courant avec de nombreux ensembles de données. Nous utilisons MultiRC en raison d'un certain nombre de propriétés souhaitables : (i) chaque question peut avoir plusieurs réponses correctes possibles, de sorte que chaque paire question-réponse doit être évaluée indépendamment des autres paires, (ii) les questions sont conçues de telle sorte que la réponse à chaque question nécessite tirer des faits de plusieurs phrases de contexte, et (iii) le format de paire question-réponse correspond plus étroitement à l'API d'autres tâches SuperGLUE que l'AQ extractive basée sur l'étendue. Les paragraphes sont tirés de sept domaines, dont l'actualité, la fiction et le texte historique.

  • Page d' accueil: https://cogcomp.org/multirc/

  • Taille du téléchargement: 1.06 MiB

  • scissions:

Diviser Exemples
'test' 9 693
'train' 27 243
'validation' 4 848
  • Caractéristiques:
FeaturesDict({
    'answer': Text(shape=(), dtype=tf.string),
    'idx': FeaturesDict({
        'answer': tf.int32,
        'paragraph': tf.int32,
        'question': tf.int32,
    }),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • citation:
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/enregistrement

  • Description Config: (. Lecture de texte avec Commonsense Raisonnement Dataset, Zhang et al, 2018) est un choix multiple tâche d'assurance qualité. Chaque exemple se compose d'un article de presse et d'une question de style Cloze sur l'article dans laquelle une entité est masquée. Le système doit prédire l'entité masquée à partir d'une liste donnée d'entités possibles dans le passage fourni, où la même entité peut être exprimée en utilisant plusieurs formes de surface différentes, qui sont toutes considérées comme correctes. Les articles sont tirés de CNN et du Daily Mail. Suite au travail original, nous évaluons avec max (sur toutes les mentions) le niveau de jeton F1 et la correspondance exacte (EM).

  • Page d' accueil: https://sheng-z.github.io/ReCoRD-explorer/

  • Taille du téléchargement: 49.36 MiB

  • scissions:

Diviser Exemples
'test' 10 000
'train' 100 730
'validation' 10 000
  • Caractéristiques:
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=tf.string)),
    'entities': Sequence(Text(shape=(), dtype=tf.string)),
    'idx': FeaturesDict({
        'passage': tf.int32,
        'query': tf.int32,
    }),
    'passage': Text(shape=(), dtype=tf.string),
    'query': Text(shape=(), dtype=tf.string),
})
  • citation:
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/rte

  • Description Config: Les Reconnaissant les ensembles de données textuels Implication (RTE) proviennent d'une série de concours annuels sur entailment textuelle, le problème de prédire si une peine de principe donnée entraîne une peine d'hypothèse donnée (aussi connu comme l' inférence de langage naturel, NLI). RTE était auparavant inclus dans GLUE, et nous utilisons les mêmes données et le même format qu'avant : nous fusionnons les données de RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) et RTE5 (Bentivogli et al., 2009). Tous les ensembles de données sont combinés et convertis en une classification à deux classes : entailment et not_entailment. De toutes les tâches GLUE, RTE était parmi celles qui ont le plus bénéficié de l'apprentissage par transfert, passant d'une performance quasi aléatoire (~ 56%) au moment du lancement de GLUE à une précision de 85% (Liu et al., 2019c) au moment de l'écriture. Cependant, étant donné l'écart de huit points par rapport aux performances humaines, la tâche n'est pas encore résolue par les machines et nous nous attendons à ce que l'écart restant soit difficile à combler.

  • Page d' accueil: https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Taille du téléchargement: 733.32 KiB

  • scissions:

Diviser Exemples
'test' 3 000
'train' 2 490
'validation' 277
  • Caractéristiques:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • citation:
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wic

  • Description Config: La Parole en contexte (WIC, Pilehvar et Camacho-Collados, 2019) prend en charge un ensemble de données mot sens de la distribution des tâches homonymie que la classification binaire sur des paires de phrases. Étant donné deux phrases et un mot polysémique (sens ambigu) qui apparaît dans les deux phrases, la tâche consiste à déterminer si le mot est utilisé avec le même sens dans les deux phrases. Les phrases sont tirées de WordNet (Miller, 1995), VerbNet (Schuler, 2005) et Wiktionary. Nous suivons le travail original et évaluons avec précision.

  • Page d' accueil: https://pilehvar.github.io/wic/

  • Taille du téléchargement: 386.93 KiB

  • scissions:

Diviser Exemples
'test' 1 400
'train' 5 428
'validation' 638
  • Caractéristiques:
FeaturesDict({
    'end1': tf.int32,
    'end2': tf.int32,
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
    'start1': tf.int32,
    'start2': tf.int32,
    'word': Text(shape=(), dtype=tf.string),
})
  • citation:
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc

  • Description Config: Le défi Winograd schéma (. WSC, Levesque et al, 2012) est une tâche de compréhension de lecture dans lequel un système doit lire une phrase avec un pronom et sélectionnez le référent de ce pronom à partir d' une liste de choix. Compte tenu de la difficulté de cette tâche et de la marge restante, nous avons inclus WSC dans SuperGLUE et refondu l'ensemble de données dans sa forme de coréférence. La tâche est présentée comme un problème de classification binaire, par opposition au choix multiple N, afin d'isoler la capacité du modèle à comprendre les liens de coréférence dans une phrase par opposition à diverses autres stratégies qui peuvent entrer en jeu dans des conditions à choix multiples. Dans cet esprit, nous créons une division avec 65% de classe majoritaire négative dans l'ensemble de validation, reflétant la distribution de l'ensemble de test caché, et 52% de classe négative dans l'ensemble d'apprentissage. Les exemples de formation et de validation sont tirés de l'ensemble de données Winograd Schema original (Levesque et al., 2012), ainsi que de ceux distribués par l'organisation affiliée Commonsense Reasoning. Les exemples de test sont dérivés de livres de fiction et ont été partagés avec nous par les auteurs de l'ensemble de données original. Auparavant, une version de WSC refondue en NLI comme incluse dans GLUE, connue sous le nom de WNLI. Aucun progrès substantiel n'a été réalisé sur le WNLI, de nombreuses soumissions choisissant de ne soumettre que des prédictions de classe majoritaire. WNLI a été rendu particulièrement difficile en raison d'une division contradictoire entre le train et le développement : les phrases de prémisse qui apparaissaient dans l'ensemble d'entraînement apparaissaient parfois dans l'ensemble de développement avec une hypothèse différente et une étiquette inversée. Si un système mémorisait l'ensemble d'apprentissage sans généraliser de manière significative, ce qui était facile en raison de la petite taille de l'ensemble d'apprentissage, il pourrait fonctionner bien en deçà du hasard sur l'ensemble de développement. Nous supprimons cette conception contradictoire dans la version SuperGLUE de WSC en veillant à ce qu'aucune phrase ne soit partagée entre les ensembles d'entraînement, de validation et de test.

Cependant, les ensembles de validation et de test proviennent de domaines différents, l'ensemble de validation étant constitué d'exemples ambigus tels que la modification d'un mot de phrase non nominale modifiera les dépendances de coréférence dans la phrase. L'ensemble de test se compose uniquement d'exemples plus simples, avec un nombre élevé de phrases nominales (et donc plus de choix pour le modèle), mais peu ou pas d'ambiguïté.

Diviser Exemples
'test' 146
'train' 554
'validation' 104
  • Caractéristiques:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • citation:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.fixed

  • Description Config: Le défi Winograd schéma (. WSC, Levesque et al, 2012) est une tâche de compréhension de lecture dans lequel un système doit lire une phrase avec un pronom et sélectionnez le référent de ce pronom à partir d' une liste de choix. Compte tenu de la difficulté de cette tâche et de la marge restante, nous avons inclus WSC dans SuperGLUE et refondu l'ensemble de données dans sa forme de coréférence. La tâche est présentée comme un problème de classification binaire, par opposition au choix multiple N, afin d'isoler la capacité du modèle à comprendre les liens de coréférence dans une phrase par opposition à diverses autres stratégies qui peuvent entrer en jeu dans des conditions à choix multiples. Dans cet esprit, nous créons une division avec 65% de classe majoritaire négative dans l'ensemble de validation, reflétant la distribution de l'ensemble de test caché, et 52% de classe négative dans l'ensemble d'apprentissage. Les exemples de formation et de validation sont tirés de l'ensemble de données Winograd Schema original (Levesque et al., 2012), ainsi que de ceux distribués par l'organisation affiliée Commonsense Reasoning. Les exemples de test sont dérivés de livres de fiction et ont été partagés avec nous par les auteurs de l'ensemble de données original. Auparavant, une version de WSC refondue en NLI comme incluse dans GLUE, connue sous le nom de WNLI. Aucun progrès substantiel n'a été réalisé sur le WNLI, de nombreuses soumissions choisissant de ne soumettre que des prédictions de classe majoritaire. WNLI a été rendu particulièrement difficile en raison d'une division contradictoire entre le train et le développement : les phrases de prémisse qui apparaissaient dans l'ensemble d'entraînement apparaissaient parfois dans l'ensemble de développement avec une hypothèse différente et une étiquette inversée. Si un système mémorisait l'ensemble d'apprentissage sans généraliser de manière significative, ce qui était facile en raison de la petite taille de l'ensemble d'apprentissage, il pourrait fonctionner bien en deçà du hasard sur l'ensemble de développement. Nous supprimons cette conception contradictoire dans la version SuperGLUE de WSC en veillant à ce qu'aucune phrase ne soit partagée entre les ensembles d'entraînement, de validation et de test.

Cependant, les ensembles de validation et de test proviennent de domaines différents, l'ensemble de validation étant constitué d'exemples ambigus tels que la modification d'un mot de phrase non nominale modifiera les dépendances de coréférence dans la phrase. L'ensemble de test se compose uniquement d'exemples plus simples, avec un nombre élevé de phrases nominales (et donc plus de choix pour le modèle), mais peu ou pas d'ambiguïté.

Cette version résout les problèmes où les étendues ne sont pas réellement des sous-chaînes du texte.

Diviser Exemples
'test' 146
'train' 554
'validation' 104
  • Caractéristiques:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • citation:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axb

  • Description Config: Un expert-construit, ensemble de données de diagnostic qui teste automatiquement les modèles pour une large gamme de linguistique, du sens commun et la connaissance du monde. Chaque exemple de ce diagnostic à large couverture est une paire de phrases étiquetée avec une relation d'implication à trois voies (implication, neutre ou contradiction) et étiquetée avec des étiquettes qui indiquent les phénomènes qui caractérisent la relation entre les deux phrases. Les soumissions au classement GLUE doivent inclure les prédictions du classificateur MultiNLI de la soumission sur l'ensemble de données de diagnostic, et les analyses des résultats ont été affichées à côté du classement principal. Étant donné que cette tâche de diagnostic à large couverture s'est avérée difficile pour les modèles haut de gamme, nous la conservons dans SuperGLUE. Cependant, étant donné que MultiNLI ne fait pas partie de SuperGLUE, nous réduisons contradiction et neutralité en une seule étiquette not_entailment, et demandons que les soumissions incluent des prédictions sur l'ensemble résultant du modèle utilisé pour la tâche RTE.

  • Page d' accueil: https://gluebenchmark.com/diagnostics

  • Taille du téléchargement: 33.15 KiB

  • scissions:

Diviser Exemples
'test' 1 104
  • Caractéristiques:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • citation:
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/axg

  • Description Config: Winogender est conçu pour mesurer les préjugés sexistes dans les systèmes de résolution de coréférence. Nous utilisons la version Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) qui présente Winogender comme une tâche d'implication textuelle. Chaque exemple consiste en une phrase prémisse avec un pronom masculin ou féminin et une hypothèse donnant un antécédent possible du pronom. Les exemples se produisent dans des paires minimales, où la seule différence entre un exemple et sa paire est le genre du pronom dans la prémisse. Les performances sur Winogender sont mesurées avec à la fois la précision et le score de parité entre les sexes : le pourcentage de paires minimales pour lesquelles les prédictions sont les mêmes. Nous notons qu'un système peut trivialement obtenir un score de parité de genre parfait en devinant la même classe pour tous les exemples, donc un score de parité de genre élevé n'a de sens que s'il est accompagné d'une grande précision. En tant que test de diagnostic des préjugés sexistes, nous considérons les schémas comme ayant une valeur prédictive positive élevée et une valeur prédictive négative faible ; c'est-à-dire qu'ils peuvent démontrer la présence de préjugés sexistes dans un système, mais pas prouver son absence.

  • Page d' accueil: https://github.com/rudinger/winogender-schemas

  • Taille du téléchargement: 10.17 KiB

  • scissions:

Diviser Exemples
'test' 356
  • Caractéristiques:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • citation:
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.