Questa pagina è stata tradotta dall'API Cloud Translation.
Switch to English

super colla

  • Descrizione :

SuperGLUE ( https://super.gluebenchmark.com/ ) è un nuovo benchmark in stile GLUE con una nuova serie di attività di comprensione del linguaggio più difficili, risorse migliorate e una nuova classifica pubblica.

super_glue / boolq (configurazione predefinita)

  • Descrizione configurazione : BoolQ (Boolean Questions, Clark et al., 2019a) è un'attività di controllo qualità in cui ogni esempio consiste in un breve passaggio e una domanda sì / no sul passaggio. Le domande vengono fornite in forma anonima e non richieste dagli utenti del motore di ricerca Google e successivamente abbinate a un paragrafo di un articolo di Wikipedia contenente la risposta. Seguendo il lavoro originale, valutiamo con accuratezza.

  • Homepage : https://github.com/google-research-datasets/boolean-questions

  • Dimensioni download : 3.93 MiB

  • Divisioni :

Diviso Esempi
'test' 3.245
'train' 9.427
'validation' 3.270
  • Caratteristiche :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'passage': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Citazione :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / cb

  • Descrizione della configurazione : The CommitmentBank (De Marneffe et al., 2019) è un corpus di brevi testi in cui almeno una frase contiene una clausola incorporata. Ciascuna di queste clausole incorporate è annotata con il grado in cui ci aspettiamo che la persona che ha scritto il testo sia impegnata nella verità della clausola. Il compito risultante inquadrato come implicazione testuale di tre classi su esempi tratti dal Wall Street Journal, dalla narrativa del British National Corpus e da Switchboard. Ogni esempio consiste in una premessa contenente una clausola incorporata e l'ipotesi corrispondente è l'estrazione di quella clausola. Usiamo un sottoinsieme dei dati che avevano un accordo tra annotatori superiore a 0,85. I dati sono sbilanciati (relativamente meno esempi neutri), quindi valutiamo utilizzando l'accuratezza e F1, dove per F1 multi-classe calcoliamo la media non ponderata della F1 per classe.

  • Pagina iniziale : https://github.com/mcdm/CommitmentBank

  • Dimensioni download : 73.71 KiB

  • Divisioni :

Diviso Esempi
'test' 250
'train' 250
'validation' 56
  • Caratteristiche :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Citazione :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / copa

  • Descrizione della configurazione : il set di dati The Choice Of Plausible Alternatives (COPA, Roemmele et al., 2011) è un compito di ragionamento causale in cui a un sistema viene data una frase premessa e due possibili alternative. Il sistema deve scegliere l'alternativa che ha la relazione causale più plausibile con la premessa. Il metodo utilizzato per la costruzione delle alternative garantisce che il compito richieda un ragionamento causale per essere risolto. Gli esempi si occupano di possibili cause alternative o possibili effetti alternativi della frase premessa, accompagnati da una semplice domanda che disambigua i due tipi di istanza per il modello. Tutti gli esempi sono realizzati a mano e si concentrano su argomenti tratti da blog online e un'enciclopedia relativa alla fotografia. Seguendo la raccomandazione degli autori, valutiamo utilizzando l'accuratezza.

  • Homepage : http://people.ict.usc.edu/~gordon/copa.html

  • Dimensioni download : 42.96 KiB

  • Divisioni :

Diviso Esempi
'test' 500
'train' 400
'validation' 100
  • Caratteristiche :
FeaturesDict({
    'choice1': Text(shape=(), dtype=tf.string),
    'choice2': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Citazione :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / multirc

  • Descrizione della configurazione : il set di dati Multi-Sentence Reading Comprehension (MultiRC, Khashabi et al., 2018) è un'attività di risposta a domande vero / falso. Ogni esempio consiste in un paragrafo contestuale, una domanda su quel paragrafo e un elenco di possibili risposte a quella domanda che devono essere etichettate come vere o false. La risposta alle domande (QA) è un problema comune con molti set di dati. Usiamo MultiRC a causa di una serie di proprietà desiderabili: (i) ogni domanda può avere più possibili risposte corrette, quindi ogni coppia domanda-risposta deve essere valutata indipendentemente dalle altre coppie, (ii) le domande sono progettate in modo tale che rispondere a ciascuna domanda richiede trarre fatti da più frasi di contesto e (iii) il formato della coppia domanda-risposta corrisponde più strettamente all'API di altre attività SuperGLUE rispetto a quanto non faccia il QA estrattivo basato su span. I paragrafi sono tratti da sette domini tra cui notizie, narrativa e testo storico.

  • Pagina iniziale : https://cogcomp.org/multirc/

  • Dimensioni download : 1.06 MiB

  • Divisioni :

Diviso Esempi
'test' 9.693
'train' 27.243
'validation' 4.848
  • Caratteristiche :
FeaturesDict({
    'answer': Text(shape=(), dtype=tf.string),
    'idx': FeaturesDict({
        'answer': tf.int32,
        'paragraph': tf.int32,
        'question': tf.int32,
    }),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Citazione :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / record

  • Descrizione della configurazione : (Reading Comprehension with Commonsense Reasoning Dataset, Zhang et al., 2018) è un'attività di QA a scelta multipla. Ogni esempio consiste in un articolo di notizie e una domanda in stile Cloze sull'articolo in cui un'entità è mascherata. Il sistema deve prevedere l'entità mascherata da un dato elenco di possibili entità nel passaggio fornito, dove la stessa entità può essere espressa utilizzando più forme di superficie differenti, tutte considerate corrette. Gli articoli sono tratti dalla CNN e dal Daily Mail. Seguendo il lavoro originale, valutiamo con il massimo (su tutte le menzioni) F1 a livello di token e corrispondenza esatta (EM).

  • Pagina iniziale : https://sheng-z.github.io/ReCoRD-explorer/

  • Dimensioni download : 49.36 MiB

  • Divisioni :

Diviso Esempi
'test' 10.000
'train' 100.730
'validation' 10.000
  • Caratteristiche :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=tf.string)),
    'entities': Sequence(Text(shape=(), dtype=tf.string)),
    'idx': FeaturesDict({
        'passage': tf.int32,
        'query': tf.int32,
    }),
    'passage': Text(shape=(), dtype=tf.string),
    'query': Text(shape=(), dtype=tf.string),
})
  • Citazione :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / rte

  • Descrizione della configurazione : i set di dati RTE (Recognizing Textual Entailment) provengono da una serie di concorsi annuali sul coinvolgimento testuale, il problema di prevedere se una data frase premessa comporta una data ipotesi frase (nota anche come inferenza del linguaggio naturale, NLI). RTE era precedentemente incluso in GLUE e usiamo gli stessi dati e formato di prima: uniamo i dati da RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) e RTE5 (Bentivogli et al., 2009). Tutti i set di dati vengono combinati e convertiti in una classificazione a due classi: entailment e not_entailment. Di tutte le attività di GLUE, l'RTE è stata tra quelle che hanno beneficiato maggiormente del transfer learning, passando da prestazioni quasi casuali (~ 56%) al momento del lancio di GLUE all'85% di accuratezza (Liu et al., 2019c) al tempo di scrittura. Dato il divario di otto punti rispetto alle prestazioni umane, tuttavia, il compito non è ancora risolto dalle macchine e ci aspettiamo che il divario rimanente sia difficile da colmare.

  • Pagina iniziale : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Dimensione download : 733.32 KiB

  • Divisioni :

Diviso Esempi
'test' 3.000
'train' 2.490
'validation' 277
  • Caratteristiche :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Citazione :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wic

  • Descrizione della configurazione : il set di dati Word-in-Context (WiC, Pilehvar e Camacho-Collados, 2019) supporta un'attività di disambiguazione del senso delle parole espressa come classificazione binaria su coppie di frasi. Date due frasi e una parola polisemica (senso-ambigua) che appare in entrambe le frasi, il compito è determinare se la parola è usata con lo stesso senso in entrambe le frasi. Le frasi sono tratte da WordNet (Miller, 1995), VerbNet (Schuler, 2005) e Wiktionary. Seguiamo il lavoro originale e valutiamo utilizzando l'accuratezza.

  • Homepage : https://pilehvar.github.io/wic/

  • Dimensioni download : 386.93 KiB

  • Divisioni :

Diviso Esempi
'test' 1.400
'train' 5.428
'validation' 638
  • Caratteristiche :
FeaturesDict({
    'end1': tf.int32,
    'end2': tf.int32,
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
    'start1': tf.int32,
    'start2': tf.int32,
    'word': Text(shape=(), dtype=tf.string),
})
  • Citazione :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc

  • Descrizione della configurazione : la Winograd Schema Challenge (WSC, Levesque et al., 2012) è un'attività di comprensione della lettura in cui un sistema deve leggere una frase con un pronome e selezionare il referente di quel pronome da un elenco di scelte. Data la difficoltà di questo compito e l'headroom ancora disponibile, abbiamo incluso WSC in SuperGLUE e rifuso il set di dati nella sua forma di coreference. Il compito è lanciato come un problema di classificazione binaria, in contrapposizione alla scelta multipla N, al fine di isolare la capacità del modello di comprendere i collegamenti di coreferenza all'interno di una frase rispetto a varie altre strategie che possono entrare in gioco in condizioni di scelta multipla. Con questo in mente, creiamo una divisione con il 65% di classe a maggioranza negativa nel set di convalida, che riflette la distribuzione del set di test nascosto e il 52% di classe negativa nel set di addestramento. Gli esempi di formazione e convalida sono tratti dal dataset originale di Winograd Schema (Levesque et al., 2012), nonché da quelli distribuiti dall'organizzazione affiliata Commonsense Reasoning. Gli esempi di test sono derivati ​​da libri di narrativa e sono stati condivisi con noi dagli autori del set di dati originale. In precedenza, una versione di WSC rifusa come NLI come inclusa in GLUE, nota come WNLI. Nessun progresso sostanziale è stato fatto su WNLI, con molte proposte che hanno scelto di presentare solo previsioni di classe maggioritaria. WNLI è stato reso particolarmente difficile a causa di una divisione treno / sviluppatore contraddittorio: le frasi premesse che apparivano nel set di addestramento a volte apparivano nel set di sviluppo con un'ipotesi diversa e un'etichetta capovolta. Se un sistema memorizzava il set di allenamento senza generalizzare in modo significativo, il che era facile a causa delle dimensioni ridotte del set di allenamento, poteva funzionare molto al di sotto delle probabilità sul set di sviluppo. Rimuoviamo questo design contraddittorio nella versione SuperGLUE di WSC assicurandoci che nessuna frase sia condivisa tra i set di addestramento, convalida e test.

Tuttavia, i set di convalida e di test provengono da domini diversi, con il set di convalida costituito da esempi ambigui in modo tale che la modifica di una parola della frase non nominale cambierà le dipendenze di coreferenza nella frase. Il set di test consiste solo di esempi più semplici, con un numero elevato di frasi nominali (e quindi più scelte per il modello), ma da bassa a nessuna ambiguità.

Diviso Esempi
'test' 146
'train' 554
'validation' 104
  • Caratteristiche :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • Citazione :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc.fixed

  • Descrizione della configurazione : la Winograd Schema Challenge (WSC, Levesque et al., 2012) è un'attività di comprensione della lettura in cui un sistema deve leggere una frase con un pronome e selezionare il referente di quel pronome da un elenco di scelte. Data la difficoltà di questo compito e l'headroom ancora disponibile, abbiamo incluso WSC in SuperGLUE e rifuso il set di dati nella sua forma di coreference. Il compito è lanciato come un problema di classificazione binaria, in contrapposizione alla scelta multipla N, al fine di isolare la capacità del modello di comprendere i collegamenti di coreferenza all'interno di una frase rispetto a varie altre strategie che possono entrare in gioco in condizioni di scelta multipla. Con questo in mente, creiamo una divisione con il 65% di classe a maggioranza negativa nel set di convalida, che riflette la distribuzione del set di test nascosto e il 52% di classe negativa nel set di addestramento. Gli esempi di formazione e convalida sono tratti dal dataset originale di Winograd Schema (Levesque et al., 2012), nonché da quelli distribuiti dall'organizzazione affiliata Commonsense Reasoning. Gli esempi di test sono derivati ​​da libri di narrativa e sono stati condivisi con noi dagli autori del set di dati originale. In precedenza, una versione di WSC rifusa come NLI come inclusa in GLUE, nota come WNLI. Nessun progresso sostanziale è stato fatto su WNLI, con molte proposte che hanno scelto di presentare solo previsioni di classe maggioritaria. WNLI è stato reso particolarmente difficile a causa di una divisione treno / sviluppatore contraddittorio: le frasi premesse che apparivano nel set di addestramento a volte apparivano nel set di sviluppo con un'ipotesi diversa e un'etichetta capovolta. Se un sistema memorizzava l'insieme di addestramento senza generalizzare in modo significativo, il che era facile a causa delle dimensioni ridotte dell'insieme di addestramento, poteva funzionare molto al di sotto delle probabilità sul set di sviluppo. Rimuoviamo questo design contraddittorio nella versione SuperGLUE di WSC assicurandoci che nessuna frase sia condivisa tra i set di addestramento, convalida e test.

Tuttavia, i set di convalida e di test provengono da domini diversi, con il set di convalida costituito da esempi ambigui in modo tale che la modifica di una parola della frase non nominale cambierà le dipendenze di coreferenza nella frase. Il set di test consiste solo di esempi più semplici, con un numero elevato di frasi nominali (e quindi più scelte per il modello), ma da bassa a nessuna ambiguità.

Questa versione risolve i problemi in cui gli intervalli non sono effettivamente sottostringhe del testo.

Diviso Esempi
'test' 146
'train' 554
'validation' 104
  • Caratteristiche :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • Citazione :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / axb

  • Descrizione configurazione : un set di dati diagnostico costruito da esperti che testa automaticamente i modelli per un'ampia gamma di conoscenze linguistiche, di buon senso e del mondo. Ogni esempio in questa diagnostica ad ampia copertura è una coppia di frasi etichettata con una relazione di coinvolgimento a tre vie (coinvolgimento, neutro o contraddizione) e contrassegnata da etichette che indicano i fenomeni che caratterizzano la relazione tra le due frasi. Gli invii alla classifica GLUE devono includere previsioni dal classificatore MultiNLI della sottomissione sul set di dati diagnostici e le analisi dei risultati sono state mostrate insieme alla classifica principale. Poiché questo compito diagnostico ad ampia copertura si è rivelato difficile per i modelli di punta, lo conserviamo in SuperGLUE. Tuttavia, poiché MultiNLI non fa parte di SuperGLUE, comprimiamo contraddizione e neutro in una singola etichetta not_entailment e richiediamo che gli invii includano previsioni sul set risultante dal modello utilizzato per l'attività RTE.

  • Homepage : https://gluebenchmark.com/diagnostics

  • Dimensioni download : 33.15 KiB

  • Divisioni :

Diviso Esempi
'test' 1.104
  • Caratteristiche :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Citazione :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / axg

  • Descrizione della configurazione : Winogender è progettato per misurare i pregiudizi di genere nei sistemi di risoluzione della coreferenza. Usiamo la versione Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) che lancia Winogender come un'attività di coinvolgimento testuale. Ogni esempio è costituito da una frase premessa con un pronome maschile o femminile e un'ipotesi che fornisce un possibile antecedente del pronome. Gli esempi si verificano in coppie minime, dove l'unica differenza tra un esempio e la sua coppia è il genere del pronome nella premessa. Le prestazioni su Winogender vengono misurate sia con l'accuratezza che con il punteggio di parità di genere: la percentuale di coppie minime per cui le previsioni sono le stesse. Notiamo che un sistema può banalmente ottenere un punteggio di parità di genere perfetto indovinando la stessa classe per tutti gli esempi, quindi un punteggio di parità di genere elevato non ha senso se non accompagnato da un'elevata precisione. Come test diagnostico del bias di genere, riteniamo che gli schemi abbiano un valore predittivo positivo alto e un valore predittivo negativo basso; in altre parole, possono dimostrare la presenza di pregiudizi di genere in un sistema, ma non dimostrarne l'assenza.

  • Home page : https://github.com/rudinger/winogender-schemas

  • Dimensioni download : 10.17 KiB

  • Divisioni :

Diviso Esempi
'test' 356
  • Caratteristiche :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Citazione :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.