super colla

  • Descrizione :

SuperGLUE ( https://super.gluebenchmark.com/ ) è un nuovo benchmark in stile GLUE con una nuova serie di attività di comprensione linguistica più difficili, risorse migliorate e una nuova classifica pubblica.

super_glue/boolq (configurazione predefinita)

  • Descrizione della configurazione : BoolQ (Boolean Questions, Clark et al., 2019a) è un'attività QA in cui ogni esempio consiste in un breve passaggio e una domanda sì/no sul passaggio. Le domande vengono fornite in modo anonimo e non richiesto dagli utenti del motore di ricerca Google, e successivamente abbinate a un paragrafo di un articolo di Wikipedia contenente la risposta. Seguendo il lavoro originale, valutiamo con accuratezza.

  • Home page : https://github.com/google-research-datasets/boolean-questions

  • Dimensione del download : 3.93 MiB

  • Dimensione del set di dati: 10.75 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 3.245
'train' 9.427
'validation' 3.270
  • Struttura delle caratteristiche :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'passage': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
idx Tensore int32
etichetta ClassLabel int64
passaggio Testo corda
domanda Testo corda
  • Citazione :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_colla/cb

  • Descrizione della configurazione : CommitmentBank (De Marneffe et al., 2019) è un corpus di brevi testi in cui almeno una frase contiene una clausola incorporata. Ognuna di queste clausole incorporate è annotata con il grado in cui ci aspettiamo che la persona che ha scritto il testo sia impegnata nella verità della clausola. Il compito risultante è stato inquadrato come implicazione testuale di tre classi su esempi tratti dal Wall Street Journal, narrativa dal British National Corpus e Switchboard. Ogni esempio è costituito da una premessa contenente una clausola incorporata e l'ipotesi corrispondente è l'estrazione di quella clausola. Utilizziamo un sottoinsieme dei dati che presentava un accordo tra annotatori superiore a 0,85. I dati sono sbilanciati (relativamente meno esempi neutri), quindi valutiamo utilizzando accuratezza e F1, dove per F1 multi-classe calcoliamo la media non ponderata di F1 per classe.

  • Pagina iniziale : https://github.com/mcdm/CommitmentBank

  • Dimensione del download : 73.71 KiB

  • Dimensione del set di dati: 229.28 KiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 250
'train' 250
'validation' 56
  • Struttura delle caratteristiche :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
ipotesi Testo corda
idx Tensore int32
etichetta ClassLabel int64
premessa Testo corda
  • Citazione :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_colla/copa

  • Descrizione della configurazione : il set di dati Choice Of Plausible Alternatives (COPA, Roemmele et al., 2011) è un compito di ragionamento causale in cui a un sistema viene assegnata una frase di premessa e due possibili alternative. Il sistema deve scegliere l'alternativa che ha la relazione causale più plausibile con la premessa. Il metodo utilizzato per la costruzione delle alternative garantisce che il compito richieda un ragionamento causale per essere risolto. Gli esempi riguardano possibili cause alternative o possibili effetti alternativi della premessa, accompagnati da una semplice domanda che disambigua tra i due tipi di istanza per il modello. Tutti gli esempi sono realizzati a mano e si concentrano su argomenti di blog online e un'enciclopedia correlata alla fotografia. Seguendo la raccomandazione degli autori, valutiamo utilizzando l'accuratezza.

  • Pagina iniziale : http://people.ict.usc.edu/~gordon/copa.html

  • Dimensione del download : 42.96 KiB

  • Dimensione del set di dati: 196.00 KiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 500
'train' 400
'validation' 100
  • Struttura delle caratteristiche :
FeaturesDict({
    'choice1': Text(shape=(), dtype=string),
    'choice2': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
scelta1 Testo corda
scelta2 Testo corda
idx Tensore int32
etichetta ClassLabel int64
premessa Testo corda
domanda Testo corda
  • Citazione :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_colla/multirc

  • Descrizione della configurazione : il set di dati Multi-Sentence Reading Comprension (MultiRC, Khashabi et al., 2018) è un'attività di risposta a domande vero/falso. Ogni esempio è costituito da un paragrafo di contesto, una domanda su quel paragrafo e un elenco di possibili risposte a quella domanda che devono essere etichettate come vere o false. La risposta alle domande (QA) è un problema comune con molti set di dati. Usiamo MultiRC a causa di una serie di proprietà desiderabili: (i) ogni domanda può avere più possibili risposte corrette, quindi ogni coppia domanda-risposta deve essere valutata indipendentemente da altre coppie, (ii) le domande sono progettate in modo tale che la risposta a ciascuna domanda richieda trarre fatti da più frasi di contesto e (iii) il formato della coppia domanda-risposta corrisponde più da vicino all'API di altre attività SuperGLUE rispetto al QA estrattivo basato sull'intervallo. I paragrafi sono tratti da sette domini tra cui notizie, narrativa e testo storico.

  • Pagina iniziale : https://cogcomp.org/multirc/

  • Dimensione del download : 1.06 MiB

  • Dimensione del set di dati: 70.39 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 9.693
'train' 27.243
'validation' 4.848
  • Struttura delle caratteristiche :
FeaturesDict({
    'answer': Text(shape=(), dtype=string),
    'idx': FeaturesDict({
        'answer': int32,
        'paragraph': int32,
        'question': int32,
    }),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
Rispondere Testo corda
idx CaratteristicheDict
idx/risposta Tensore int32
idx/paragrafo Tensore int32
idx/domanda Tensore int32
etichetta ClassLabel int64
paragrafo Testo corda
domanda Testo corda
  • Citazione :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_colla/record

  • Descrizione della configurazione : (Reading Comprension with Commonsense Reasoning Dataset, Zhang et al., 2018) è un'attività di QA a scelta multipla. Ogni esempio consiste in un articolo di notizie e una domanda in stile Cloze sull'articolo in cui un'entità è mascherata. Il sistema deve prevedere l'entità mascherata da un dato elenco di possibili entità nel passaggio fornito, in cui la stessa entità può essere espressa utilizzando più forme di superficie diverse, tutte considerate corrette. Gli articoli sono tratti dalla CNN e dal Daily Mail. Seguendo il lavoro originale, valutiamo con F1 a livello di token massimo (su tutte le menzioni) e corrispondenza esatta (EM).

  • Pagina iniziale : https://sheng-z.github.io/ReCoRD-explorer/

  • Dimensione del download : 49.36 MiB

  • Dimensione del set di dati: 166.40 MiB

  • Cache automatica ( documentazione ): Sì (test, convalida), solo quando shuffle_files=False (train)

  • Divisioni :

Diviso Esempi
'test' 10.000
'train' 100.730
'validation' 10.000
  • Struttura delle caratteristiche :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=string)),
    'entities': Sequence(Text(shape=(), dtype=string)),
    'idx': FeaturesDict({
        'passage': int32,
        'query': int32,
    }),
    'passage': Text(shape=(), dtype=string),
    'query': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
risposte Sequenza(Testo) (Nessuno,) corda
entità Sequenza(Testo) (Nessuno,) corda
idx CaratteristicheDict
idx/passaggio Tensore int32
idx/interrogazione Tensore int32
passaggio Testo corda
domanda Testo corda
  • Citazione :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_colla/rte

  • Descrizione della configurazione : i set di dati Recognizing Textual Entailment (RTE) provengono da una serie di concorsi annuali sull'implicazione testuale, il problema di prevedere se una data frase di premessa comporta una data frase di ipotesi (nota anche come inferenza del linguaggio naturale, NLI). RTE era precedentemente incluso in GLUE e utilizziamo gli stessi dati e lo stesso formato di prima: uniamo i dati di RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) e RTE5 (Bentivogli et al., 2009). Tutti i set di dati vengono combinati e convertiti in una classificazione a due classi: implicazione e non_implicazione. Di tutte le attività di GLUE, RTE è stata tra quelle che hanno beneficiato maggiormente dell'apprendimento del trasferimento, passando da prestazioni quasi casuali (~ 56%) al momento del lancio di GLUE all'accuratezza dell'85% (Liu et al., 2019c) al momento della scrittura. Dato il divario di otto punti rispetto alle prestazioni umane, tuttavia, il compito non è ancora risolto dalle macchine e prevediamo che il divario rimanente sarà difficile da colmare.

  • Pagina iniziale : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Dimensione del download : 733.32 KiB

  • Dimensione del set di dati : 2.15 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 3.000
'train' 2.490
'validation' 277
  • Struttura delle caratteristiche :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
ipotesi Testo corda
idx Tensore int32
etichetta ClassLabel int64
premessa Testo corda
  • Citazione :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_colla/wic

  • Descrizione della configurazione : il set di dati Word-in-Context (WiC, Pilehvar e Camacho-Collados, 2019) supporta un'attività di disambiguazione del senso delle parole espressa come classificazione binaria su coppie di frasi. Date due frasi e una parola polisemica (di senso ambiguo) che appare in entrambe le frasi, il compito è determinare se la parola è usata con lo stesso senso in entrambe le frasi. Le frasi sono tratte da WordNet (Miller, 1995), VerbNet (Schuler, 2005) e Wikizionario. Seguiamo il lavoro originale e valutiamo con accuratezza.

  • Pagina iniziale : https://pilehvar.github.io/wic/

  • Dimensione del download : 386.93 KiB

  • Dimensione del set di dati : 1.67 MiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 1.400
'train' 5.428
'validation' 638
  • Struttura delle caratteristiche :
FeaturesDict({
    'end1': int32,
    'end2': int32,
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
    'start1': int32,
    'start2': int32,
    'word': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
fine1 Tensore int32
fine2 Tensore int32
idx Tensore int32
etichetta ClassLabel int64
frase1 Testo corda
frase2 Testo corda
inizio1 Tensore int32
inizio2 Tensore int32
parola Testo corda
  • Citazione :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_colla/wsc

  • Descrizione della configurazione : La Winograd Schema Challenge (WSC, Levesque et al., 2012) è un compito di comprensione della lettura in cui un sistema deve leggere una frase con un pronome e selezionare il referente di quel pronome da un elenco di scelte. Data la difficoltà di questo compito e il margine ancora rimasto, abbiamo incluso WSC in SuperGLUE e riformulato il set di dati nella sua forma di coreferenza. Il compito è lanciato come un problema di classificazione binaria, al contrario di N-scelta multipla, al fine di isolare la capacità del modello di comprendere i collegamenti di coreferenza all'interno di una frase rispetto a varie altre strategie che possono entrare in gioco in condizioni di scelta multipla. Con questo in mente, creiamo una divisione con il 65% di classe di maggioranza negativa nel set di convalida, che riflette la distribuzione del set di test nascosto e il 52% di classe negativa nel set di addestramento. Gli esempi di addestramento e convalida sono tratti dal set di dati originale Winograd Schema (Levesque et al., 2012), nonché da quelli distribuiti dall'organizzazione affiliata Commonsense Reasoning. Gli esempi di test sono derivati ​​da libri di narrativa e sono stati condivisi con noi dagli autori del set di dati originale. In precedenza, una versione di WSC riformulata come NLI come inclusa in GLUE, nota come WNLI. Non sono stati compiuti progressi sostanziali su WNLI, con molti invii che hanno scelto di inviare solo previsioni di classe maggioritaria. WNLI è stato reso particolarmente difficile a causa di una divisione contraddittoria treno/dev: le frasi di premessa che apparivano nel set di addestramento a volte apparivano nel set di sviluppo con un'ipotesi diversa e un'etichetta capovolta. Se un sistema memorizzava il set di addestramento senza generalizzare in modo significativo, il che era facile a causa delle dimensioni ridotte del set di addestramento, poteva funzionare molto al di sotto delle probabilità sul set di sviluppo. Rimuoviamo questo design contraddittorio nella versione SuperGLUE di WSC assicurandoci che nessuna frase sia condivisa tra i set di addestramento, convalida e test.

Tuttavia, i set di convalida e test provengono da domini diversi, con il set di convalida costituito da esempi ambigui tali che la modifica di una parola frase non nominale cambierà le dipendenze di coreferenza nella frase. Il set di test consiste solo di esempi più semplici, con un numero elevato di frasi nominali (e quindi più scelte per il modello), ma con ambiguità da bassa a nulla.

Diviso Esempi
'test' 146
'train' 554
'validation' 104
  • Struttura delle caratteristiche :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
idx Tensore int32
etichetta ClassLabel int64
span1_index Tensore int32
span1_text Testo corda
span2_index Tensore int32
span2_text Testo corda
testo Testo corda
  • Citazione :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.fixed

  • Descrizione della configurazione : La Winograd Schema Challenge (WSC, Levesque et al., 2012) è un compito di comprensione della lettura in cui un sistema deve leggere una frase con un pronome e selezionare il referente di quel pronome da un elenco di scelte. Data la difficoltà di questo compito e il margine ancora rimasto, abbiamo incluso WSC in SuperGLUE e riformulato il set di dati nella sua forma di coreferenza. Il compito è lanciato come un problema di classificazione binaria, al contrario di N-scelta multipla, al fine di isolare la capacità del modello di comprendere i collegamenti di coreferenza all'interno di una frase rispetto a varie altre strategie che possono entrare in gioco in condizioni di scelta multipla. Con questo in mente, creiamo una divisione con il 65% di classe di maggioranza negativa nel set di convalida, che riflette la distribuzione del set di test nascosto e il 52% di classe negativa nel set di addestramento. Gli esempi di addestramento e convalida sono tratti dal set di dati originale Winograd Schema (Levesque et al., 2012), nonché da quelli distribuiti dall'organizzazione affiliata Commonsense Reasoning. Gli esempi di test sono derivati ​​da libri di narrativa e sono stati condivisi con noi dagli autori del set di dati originale. In precedenza, una versione di WSC riformulata come NLI come inclusa in GLUE, nota come WNLI. Non sono stati compiuti progressi sostanziali su WNLI, con molti invii che hanno scelto di inviare solo previsioni di classe maggioritaria. WNLI è stato reso particolarmente difficile a causa di una divisione contraddittoria treno/dev: le frasi di premessa che apparivano nel set di addestramento a volte apparivano nel set di sviluppo con un'ipotesi diversa e un'etichetta capovolta. Se un sistema memorizzava il set di addestramento senza generalizzare in modo significativo, il che era facile a causa delle dimensioni ridotte del set di addestramento, poteva funzionare molto al di sotto delle probabilità sul set di sviluppo. Rimuoviamo questo design contraddittorio nella versione SuperGLUE di WSC assicurandoci che nessuna frase sia condivisa tra i set di addestramento, convalida e test.

Tuttavia, i set di convalida e test provengono da domini diversi, con il set di convalida costituito da esempi ambigui tali che la modifica di una parola frase non nominale cambierà le dipendenze di coreferenza nella frase. Il set di test consiste solo di esempi più semplici, con un numero elevato di frasi nominali (e quindi più scelte per il modello), ma con ambiguità da bassa a nulla.

Questa versione risolve i problemi in cui gli span non sono effettivamente sottostringhe del testo.

Diviso Esempi
'test' 146
'train' 554
'validation' 104
  • Struttura delle caratteristiche :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'span1_index': int32,
    'span1_text': Text(shape=(), dtype=string),
    'span2_index': int32,
    'span2_text': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
idx Tensore int32
etichetta ClassLabel int64
span1_index Tensore int32
span1_text Testo corda
span2_index Tensore int32
span2_text Testo corda
testo Testo corda
  • Citazione :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_colla/axb

  • Descrizione della configurazione : un set di dati diagnostici costruito da esperti che testa automaticamente i modelli per un'ampia gamma di conoscenze linguistiche, di senso comune e del mondo. Ogni esempio in questa diagnostica ad ampia copertura è una coppia di frasi etichettate con una relazione di implicazione a tre vie (comportamento, neutrale o contraddizione) e contrassegnate con etichette che indicano i fenomeni che caratterizzano la relazione tra le due frasi. Gli invii alla classifica GLUE devono includere le previsioni dal classificatore MultiNLI dell'invio nel set di dati diagnostici e le analisi dei risultati sono state mostrate accanto alla classifica principale. Poiché questo compito diagnostico ad ampia copertura si è rivelato difficile per i modelli di punta, lo conserviamo in SuperGLUE. Tuttavia, poiché MultiNLI non fa parte di SuperGLUE, comprimeremo contraddizione e neutralità in un'unica etichetta not_entailment e richiediamo che gli invii includano previsioni sull'insieme risultante dal modello utilizzato per l'attività RTE.

  • Homepage : https://gluebenchmark.com/diagnostics

  • Dimensione del download : 33.15 KiB

  • Dimensione del set di dati: 290.53 KiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 1.104
  • Struttura delle caratteristiche :
FeaturesDict({
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=string),
    'sentence2': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
idx Tensore int32
etichetta ClassLabel int64
frase1 Testo corda
frase2 Testo corda
  • Citazione :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_colla/axg

  • Descrizione della configurazione : Winogender è progettato per misurare i pregiudizi di genere nei sistemi di risoluzione delle coreferenze. Utilizziamo la versione Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018) che considera Winogender un compito di implicazione testuale. Ogni esempio è costituito da una frase di premessa con un pronome maschile o femminile e un'ipotesi che fornisce un possibile antecedente del pronome. Gli esempi si verificano in coppie minime, dove l'unica differenza tra un esempio e la sua coppia è il genere del pronome nella premessa. Le prestazioni su Winogender vengono misurate sia con precisione che con il punteggio di parità di genere: la percentuale di coppie minime per le quali le previsioni sono le stesse. Notiamo che un sistema può banalmente ottenere un punteggio di parità di genere perfetto indovinando la stessa classe per tutti gli esempi, quindi un punteggio di parità di genere elevato non ha senso se non accompagnato da un'elevata precisione. Come test diagnostico del pregiudizio di genere, riteniamo che gli schemi abbiano un valore predittivo positivo elevato e un valore predittivo negativo basso; cioè, possono dimostrare la presenza di pregiudizi di genere in un sistema, ma non provarne l'assenza.

  • Pagina iniziale : https://github.com/rudinger/winogenender-schemas

  • Dimensione del download : 10.17 KiB

  • Dimensione del set di dati: 69.75 KiB

  • Auto-cache ( documentazione ): Sì

  • Divisioni :

Diviso Esempi
'test' 356
  • Struttura delle caratteristiche :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'idx': int32,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
ipotesi Testo corda
idx Tensore int32
etichetta ClassLabel int64
premessa Testo corda
  • Citazione :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.