- Descrizione :
GLUE, il benchmark di valutazione della comprensione del linguaggio generale ( https://gluebenchmark.com/ ) è una raccolta di risorse per la formazione, la valutazione e l'analisi dei sistemi di comprensione del linguaggio naturale.
Codice sorgente :
tfds.text.Glue
Versioni :
-
1.0.0
(predefinito): Nuova API divisa ( https://tensorflow.org/datasets/splits ) -
1.0.1
: Aggiorna link URL morti.
-
Dimensioni set di dati :
Unknown size
Memorizzazione automatica nella cache ( documentazione ): sconosciuta
Chiavi supervisionate (vedere il documento
as_supervised
):None
Figura ( tfds.show_examples ): non supportato.
colla / cola (configurazione predefinita)
Descrizione della configurazione : Il Corpus of Linguistic Acceptability consiste in giudizi di accettabilità in inglese tratti da libri e articoli di riviste sulla teoria linguistica. Ogni esempio è una sequenza di parole annotate con se si tratta di una frase grammaticale inglese.
Pagina iniziale : https://nyu-mll.github.io/CoLA/
Dimensione download :
368.14 KiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.063 |
'train' | 8.551 |
'validation' | 1.043 |
- Caratteristiche :
FeaturesDict({
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence': Text(shape=(), dtype=tf.string),
})
- Citazione :
@article{warstadt2018neural,
title={Neural Network Acceptability Judgments},
author={Warstadt, Alex and Singh, Amanpreet and Bowman, Samuel R},
journal={arXiv preprint arXiv:1805.12471},
year={2018}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
- Esempi ( tfds.as_dataframe ):
colla / sst2
Descrizione della configurazione : Stanford Sentiment Treebank consiste di frasi tratte da recensioni di film e annotazioni umane del loro sentimento. Il compito è prevedere il sentimento di una data frase. Usiamo la suddivisione delle classi a due vie (positiva / negativa) e utilizziamo solo etichette a livello di frase.
Dimensioni download :
7.09 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.821 |
'train' | 67.349 |
'validation' | 872 |
- Caratteristiche :
FeaturesDict({
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence': Text(shape=(), dtype=tf.string),
})
- Citazione :
@inproceedings{socher2013recursive,
title={Recursive deep models for semantic compositionality over a sentiment treebank},
author={Socher, Richard and Perelygin, Alex and Wu, Jean and Chuang, Jason and Manning, Christopher D and Ng, Andrew and Potts, Christopher},
booktitle={Proceedings of the 2013 conference on empirical methods in natural language processing},
pages={1631--1642},
year={2013}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
- Esempi ( tfds.as_dataframe ):
colla / mrpc
Descrizione della configurazione : Il Microsoft Research Paraphrase Corpus (Dolan & Brockett, 2005) è un corpus di coppie di frasi estratte automaticamente da fonti di notizie online, con annotazioni umane per verificare se le frasi nella coppia sono semanticamente equivalenti.
Pagina iniziale : https://www.microsoft.com/en-us/download/details.aspx?id=52398
Dimensioni download :
1.43 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.725 |
'train' | 3.668 |
'validation' | 408 |
- Caratteristiche :
FeaturesDict({
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence1': Text(shape=(), dtype=tf.string),
'sentence2': Text(shape=(), dtype=tf.string),
})
- Citazione :
@inproceedings{dolan2005automatically,
title={Automatically constructing a corpus of sentential paraphrases},
author={Dolan, William B and Brockett, Chris},
booktitle={Proceedings of the Third International Workshop on Paraphrasing (IWP2005)},
year={2005}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
- Esempi ( tfds.as_dataframe ):
colla / qqp
Descrizione configurazione : il set di dati Quora Question Pairs2 è una raccolta di coppie di domande dal sito Web di risposta alle domande della comunità Quora. Il compito è determinare se un paio di domande sono semanticamente equivalenti.
Pagina iniziale : https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
Dimensioni download :
57.73 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 390.965 |
'train' | 363.849 |
'validation' | 40.430 |
- Caratteristiche :
FeaturesDict({
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'question1': Text(shape=(), dtype=tf.string),
'question2': Text(shape=(), dtype=tf.string),
})
- Citazione :
@online{WinNT,
author = {Iyer, Shankar and Dandekar, Nikhil and Csernai, Kornel},
title = {First Quora Dataset Release: Question Pairs},
year = 2017,
url = {https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs},
urldate = {2019-04-03}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
- Esempi ( tfds.as_dataframe ):
colla / stsb
Descrizione della configurazione : il Semantic Textual Similarity Benchmark (Cer et al., 2017) è una raccolta di coppie di frasi tratte da titoli di notizie, didascalie di video e immagini e dati di inferenza in linguaggio naturale. Ogni coppia è annotata dall'uomo con un punteggio di somiglianza da 1 a 5.
Homepage : http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark
Dimensione download :
784.05 KiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.379 |
'train' | 5.749 |
'validation' | 1.500 |
- Caratteristiche :
FeaturesDict({
'idx': tf.int32,
'label': tf.float32,
'sentence1': Text(shape=(), dtype=tf.string),
'sentence2': Text(shape=(), dtype=tf.string),
})
- Citazione :
@article{cer2017semeval,
title={Semeval-2017 task 1: Semantic textual similarity-multilingual and cross-lingual focused evaluation},
author={Cer, Daniel and Diab, Mona and Agirre, Eneko and Lopez-Gazpio, Inigo and Specia, Lucia},
journal={arXiv preprint arXiv:1708.00055},
year={2017}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
- Esempi ( tfds.as_dataframe ):
colla / mnli
Descrizione della configurazione : il Corpus di inferenza in linguaggio naturale multi-genere è una raccolta di coppie di frasi con annotazioni testuali di coinvolgimento. Data una frase di premessa e una frase di ipotesi, il compito è predire se la premessa implica l'ipotesi (implicazione), contraddice l'ipotesi (contraddizione) o nessuna delle due (neutra). Le frasi premesse sono raccolte da dieci fonti diverse, inclusi discorsi trascritti, narrativa e rapporti governativi. Usiamo il set di test standard, per il quale abbiamo ottenuto etichette private dagli autori, e valutiamo sia la sezione corrispondente (nel dominio) che quella non corrispondente (interdominio). Utilizziamo e raccomandiamo anche il corpus SNLI come 550.000 esempi di dati di addestramento ausiliari.
Homepage : http://www.nyu.edu/projects/bowman/multinli/
Dimensioni download :
298.29 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test_matched' | 9.796 |
'test_mismatched' | 9.847 |
'train' | 392.702 |
'validation_matched' | 9.815 |
'validation_mismatched' | 9.832 |
- Caratteristiche :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=tf.string),
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
'premise': Text(shape=(), dtype=tf.string),
})
- Citazione :
@InProceedings{N18-1101,
author = "Williams, Adina
and Nangia, Nikita
and Bowman, Samuel",
title = "A Broad-Coverage Challenge Corpus for
Sentence Understanding through Inference",
booktitle = "Proceedings of the 2018 Conference of
the North American Chapter of the
Association for Computational Linguistics:
Human Language Technologies, Volume 1 (Long
Papers)",
year = "2018",
publisher = "Association for Computational Linguistics",
pages = "1112--1122",
location = "New Orleans, Louisiana",
url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
title={A large annotated corpus for learning natural language inference},
author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
journal={arXiv preprint arXiv:1508.05326},
year={2015}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
- Esempi ( tfds.as_dataframe ):
colla / mnli_mismatched
Descrizione della configurazione : la convalida non corrispondente e le suddivisioni del test da MNLI. Vedere BuilderConfig "mnli" per ulteriori informazioni.
Homepage : http://www.nyu.edu/projects/bowman/multinli/
Dimensioni download :
298.29 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 9.847 |
'validation' | 9.832 |
- Caratteristiche :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=tf.string),
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
'premise': Text(shape=(), dtype=tf.string),
})
- Citazione :
@InProceedings{N18-1101,
author = "Williams, Adina
and Nangia, Nikita
and Bowman, Samuel",
title = "A Broad-Coverage Challenge Corpus for
Sentence Understanding through Inference",
booktitle = "Proceedings of the 2018 Conference of
the North American Chapter of the
Association for Computational Linguistics:
Human Language Technologies, Volume 1 (Long
Papers)",
year = "2018",
publisher = "Association for Computational Linguistics",
pages = "1112--1122",
location = "New Orleans, Louisiana",
url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
title={A large annotated corpus for learning natural language inference},
author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
journal={arXiv preprint arXiv:1508.05326},
year={2015}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
- Esempi ( tfds.as_dataframe ):
colla / mnli_matched
Descrizione configurazione : la convalida corrispondente e le suddivisioni del test da MNLI. Vedere BuilderConfig "mnli" per ulteriori informazioni.
Homepage : http://www.nyu.edu/projects/bowman/multinli/
Dimensioni download :
298.29 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 9.796 |
'validation' | 9.815 |
- Caratteristiche :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=tf.string),
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
'premise': Text(shape=(), dtype=tf.string),
})
- Citazione :
@InProceedings{N18-1101,
author = "Williams, Adina
and Nangia, Nikita
and Bowman, Samuel",
title = "A Broad-Coverage Challenge Corpus for
Sentence Understanding through Inference",
booktitle = "Proceedings of the 2018 Conference of
the North American Chapter of the
Association for Computational Linguistics:
Human Language Technologies, Volume 1 (Long
Papers)",
year = "2018",
publisher = "Association for Computational Linguistics",
pages = "1112--1122",
location = "New Orleans, Louisiana",
url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
title={A large annotated corpus for learning natural language inference},
author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
journal={arXiv preprint arXiv:1508.05326},
year={2015}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
- Esempi ( tfds.as_dataframe ):
colla / qnli
Descrizione della configurazione : The Stanford Question Answering Dataset è un dataset di risposta a domande composto da coppie di domande-paragrafi, in cui una delle frasi nel paragrafo (tratta da Wikipedia) contiene la risposta alla domanda corrispondente (scritta da un annotatore). Convertiamo l'attività in una classificazione di coppie di frasi formando una coppia tra ogni domanda e ogni frase nel contesto corrispondente e filtrando le coppie con una bassa sovrapposizione lessicale tra la domanda e la frase di contesto. Il compito è determinare se la frase contestuale contiene la risposta alla domanda. Questa versione modificata dell'attività originale rimuove il requisito che il modello selezioni la risposta esatta, ma rimuove anche i presupposti semplificativi secondo cui la risposta è sempre presente nell'input e che la sovrapposizione lessicale è un indizio affidabile.
Pagina iniziale : https://rajpurkar.github.io/SQuAD-explorer/
Dimensioni download :
10.14 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 5.463 |
'train' | 104.743 |
'validation' | 5.463 |
- Caratteristiche :
FeaturesDict({
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'question': Text(shape=(), dtype=tf.string),
'sentence': Text(shape=(), dtype=tf.string),
})
- Citazione :
@article{rajpurkar2016squad,
title={Squad: 100,000+ questions for machine comprehension of text},
author={Rajpurkar, Pranav and Zhang, Jian and Lopyrev, Konstantin and Liang, Percy},
journal={arXiv preprint arXiv:1606.05250},
year={2016}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
- Esempi ( tfds.as_dataframe ):
colla / rte
Descrizione della configurazione : i set di dati RTE (Recognizing Textual Entailment) derivano da una serie di sfide annuali relative al coinvolgimento testuale. Combiniamo i dati di RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) e RTE5 (Bentivogli et al., 2009) .4 Esempi sono costruito sulla base di notizie e testo di Wikipedia. Convertiamo tutti i set di dati in una divisione a due classi, dove per i set di dati a tre classi collassiamo neutri e contraddittori in non implicazioni, per coerenza.
Homepage : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment
Dimensione download :
680.81 KiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 3.000 |
'train' | 2.490 |
'validation' | 277 |
- Caratteristiche :
FeaturesDict({
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence1': Text(shape=(), dtype=tf.string),
'sentence2': Text(shape=(), dtype=tf.string),
})
- Citazione :
@inproceedings{dagan2005pascal,
title={The PASCAL recognising textual entailment challenge},
author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
booktitle={Machine Learning Challenges Workshop},
pages={177--190},
year={2005},
organization={Springer}
}
@inproceedings{bar2006second,
title={The second pascal recognising textual entailment challenge},
author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
volume={6},
number={1},
pages={6--4},
year={2006},
organization={Venice}
}
@inproceedings{giampiccolo2007third,
title={The third pascal recognizing textual entailment challenge},
author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
pages={1--9},
year={2007},
organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
booktitle={TAC},
year={2009}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
- Esempi ( tfds.as_dataframe ):
colla / wnli
Descrizione della configurazione : la Winograd Schema Challenge (Levesque et al., 2011) è un'attività di comprensione della lettura in cui un sistema deve leggere una frase con un pronome e selezionare il referente di quel pronome da un elenco di scelte. Gli esempi sono costruiti manualmente per sventare semplici metodi statistici: ognuno dipende dalle informazioni contestuali fornite da una singola parola o frase nella frase. Per convertire il problema nella classificazione delle coppie di frasi, costruiamo coppie di frasi sostituendo il pronome ambiguo con ogni possibile referente. Il compito è di prevedere se la frase con il pronome sostituito è implicata dalla frase originale. Usiamo un piccolo set di valutazione composto da nuovi esempi derivati da libri di narrativa che è stato condiviso privatamente dagli autori del corpus originale. Mentre il set di addestramento incluso è bilanciato tra due classi, il set di test è sbilanciato tra di loro (65% non comportato). Inoltre, a causa di una stranezza dei dati, l'insieme di sviluppo è contraddittorio: a volte le ipotesi sono condivise tra esempi di addestramento ed esempi di sviluppo, quindi se un modello memorizza gli esempi di addestramento, predice l'etichetta sbagliata sull'esempio dell'insieme di sviluppo corrispondente. Come con QNLI, ogni esempio viene valutato separatamente, quindi non c'è una corrispondenza sistematica tra il punteggio di un modello in questa attività e il suo punteggio nell'attività originale non convertita. Chiamiamo set di dati convertito WNLI (Winograd NLI).
Pagina iniziale : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
Dimensione download :
28.32 KiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 146 |
'train' | 635 |
'validation' | 71 |
- Caratteristiche :
FeaturesDict({
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence1': Text(shape=(), dtype=tf.string),
'sentence2': Text(shape=(), dtype=tf.string),
})
- Citazione :
@inproceedings{levesque2012winograd,
title={The winograd schema challenge},
author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
year={2012}
}
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
- Esempi ( tfds.as_dataframe ):
colla / ascia
Descrizione della configurazione : un set di dati di valutazione curato manualmente per un'analisi dettagliata delle prestazioni del sistema su un'ampia gamma di fenomeni linguistici. Questo set di dati valuta la comprensione della frase attraverso problemi di inferenza del linguaggio naturale (NLI). Utilizza un modello addestrato su MulitNLI per produrre previsioni per questo set di dati.
Homepage : https://gluebenchmark.com/diagnostics
Dimensione download :
217.05 KiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 1.104 |
- Caratteristiche :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=tf.string),
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
'premise': Text(shape=(), dtype=tf.string),
})
- Citazione :
@inproceedings{wang2019glue,
title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
note={In the Proceedings of ICLR.},
year={2019}
}
Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.
- Esempi ( tfds.as_dataframe ):