Aiuto proteggere la Grande Barriera Corallina con tensorflow sul Kaggle Join Sfida

colla

  • Descrizione:

COLLA, la comprensione di riferimento Valutazione generale Language ( https://gluebenchmark.com/ ) è una raccolta di risorse per la formazione, la valutazione e l'analisi del linguaggio naturale sistemi di comprensione.

colla/cola (configurazione predefinita)

  • Descrizione Config: Il Corpus di Linguistica accettabilità è costituito da giudizi di accettabilità inglesi tratte da libri e articoli di giornale sulla teoria linguistica. Ogni esempio è una sequenza di parole annotate se si tratta di una frase grammaticale inglese.

  • Homepage: https://nyu-mll.github.io/CoLA/

  • Dimensione del download: 368.14 KiB

  • Dataset dimensioni: 965.49 KiB

  • divide:

Diviso Esempi
'test' 1.063
'train' 8,551
'validation' 1.043
  • Caratteristiche:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence': Text(shape=(), dtype=tf.string),
})
  • citazione:
@article{warstadt2018neural,
  title={Neural Network Acceptability Judgments},
  author={Warstadt, Alex and Singh, Amanpreet and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1805.12471},
  year={2018}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colla/sst2

  • Descrizione Config: Il Sentiment Stanford Treebank è costituito da frasi di recensioni di film e annotazioni umane del loro sentimento. Il compito è prevedere il sentimento di una data frase. Usiamo la suddivisione in classi a due vie (positivo/negativo) e utilizziamo solo etichette a livello di frase.

  • Homepage: https://nlp.stanford.edu/sentiment/index.html

  • Dimensione del download: 7.09 MiB

  • Dataset dimensioni: 7.22 MiB

  • divide:

Diviso Esempi
'test' 1,821
'train' 67,349
'validation' 872
  • Caratteristiche:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence': Text(shape=(), dtype=tf.string),
})
  • citazione:
@inproceedings{socher2013recursive,
  title={Recursive deep models for semantic compositionality over a sentiment treebank},
  author={Socher, Richard and Perelygin, Alex and Wu, Jean and Chuang, Jason and Manning, Christopher D and Ng, Andrew and Potts, Christopher},
  booktitle={Proceedings of the 2013 conference on empirical methods in natural language processing},
  pages={1631--1642},
  year={2013}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colla/mrpc

  • Descrizione Config: The Microsoft Research Parafrasi Corpus (Dolan & Brockett, 2005) è un corpus di coppie di frasi estratte automaticamente da fonti di notizie on-line, con annotazioni umane per se le frasi della coppia sono semanticamente equivalenti.

  • Homepage: https://www.microsoft.com/en-us/download/details.aspx?id=52398

  • Dimensione del download: 1.43 MiB

  • Dataset dimensioni: 1.74 MiB

  • divide:

Diviso Esempi
'test' 1.725
'train' 3.668
'validation' 408
  • Caratteristiche:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • citazione:
@inproceedings{dolan2005automatically,
  title={Automatically constructing a corpus of sentential paraphrases},
  author={Dolan, William B and Brockett, Chris},
  booktitle={Proceedings of the Third International Workshop on Paraphrasing (IWP2005)},
  year={2005}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colla/qqp

  • Descrizione Config: Il dataset Quora questione Pairs2 è un insieme di coppie di domanda da parte della comunità di domande rispondendo sito Quora. Il compito è determinare se una coppia di domande è semanticamente equivalente.

  • Homepage: https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

  • Dimensione del download: 39.76 MiB

  • Dataset dimensioni: 150.37 MiB

  • divide:

Diviso Esempi
'test' 390.965
'train' 363.846
'validation' 40.430
  • Caratteristiche:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'question1': Text(shape=(), dtype=tf.string),
    'question2': Text(shape=(), dtype=tf.string),
})
  • citazione:
@online{WinNT,
  author = {Iyer, Shankar and Dandekar, Nikhil and Csernai, Kornel},
  title = {First Quora Dataset Release: Question Pairs},
  year = 2017,
  url = {https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs},
  urldate = {2019-04-03}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colla/stsb

  • Descrizione Config: Il Benchmark Semantic testuale somiglianza (. Cer et al, 2017) è una raccolta di coppie di frasi tratte da titoli di notizie, video e immagini didascalie e dati di inferenza linguaggio naturale. Ogni coppia è annotata dall'uomo con un punteggio di somiglianza da 1 a 5.

  • Homepage: http://ixa2.si.ehu.es/stswiki/index.php/STSbenchmark

  • Dimensione del download: 784.05 KiB

  • Dataset dimensioni: 1.58 MiB

  • divide:

Diviso Esempi
'test' 1,379
'train' 5.749
'validation' 1.500
  • Caratteristiche:
FeaturesDict({
    'idx': tf.int32,
    'label': tf.float32,
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • citazione:
@article{cer2017semeval,
  title={Semeval-2017 task 1: Semantic textual similarity-multilingual and cross-lingual focused evaluation},
  author={Cer, Daniel and Diab, Mona and Agirre, Eneko and Lopez-Gazpio, Inigo and Specia, Lucia},
  journal={arXiv preprint arXiv:1708.00055},
  year={2017}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colla/mnli

  • Descrizione Config: Il multi-genere del linguaggio naturale inferenza Corpus è una raccolta di crowdsourcing coppie di frasi con annotazioni implicanti testuali. Data una frase di premessa e una frase di ipotesi, il compito è di prevedere se la premessa implica l'ipotesi (implicazione), contraddice l'ipotesi (contraddizione) o nessuna delle due (neutro). Le frasi premesse sono raccolte da dieci diverse fonti, tra cui discorsi trascritti, fiction e rapporti governativi. Usiamo il set di test standard, per il quale abbiamo ottenuto etichette private dagli autori, e valutiamo sia la sezione corrispondente (nel dominio) che quella non corrispondente (interdominio). Usiamo e raccomandiamo anche il corpus SNLI come 550k esempi di dati di addestramento ausiliario.

  • Homepage: http://www.nyu.edu/projects/bowman/multinli/

  • Dimensione del download: 298.29 MiB

  • Dataset dimensioni: 100.56 MiB

  • divide:

Diviso Esempi
'test_matched' 9.796
'test_mismatched' 9,847
'train' 392.702
'validation_matched' 9,815
'validation_mismatched' 9.832
  • Caratteristiche:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • citazione:
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colla/mnli_mismatched

  • Descrizione Config: La convalida non corrispondenti e scissioni di prova da MnlI. Vedere "mnli" BuilderConfig per ulteriori informazioni.

  • Homepage: http://www.nyu.edu/projects/bowman/multinli/

  • Dimensione del download: 298.29 MiB

  • Dataset dimensioni: 4.79 MiB

  • divide:

Diviso Esempi
'test' 9,847
'validation' 9.832
  • Caratteristiche:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • citazione:
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colla/mnli_matched

  • Descrizione Config: La validazione abbinata e scissioni di prova da MnlI. Vedere "mnli" BuilderConfig per ulteriori informazioni.

  • Homepage: http://www.nyu.edu/projects/bowman/multinli/

  • Dimensione del download: 298.29 MiB

  • Dataset dimensioni: 4.58 MiB

  • divide:

Diviso Esempi
'test' 9.796
'validation' 9,815
  • Caratteristiche:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • citazione:
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}
@article{bowman2015large,
  title={A large annotated corpus for learning natural language inference},
  author={Bowman, Samuel R and Angeli, Gabor and Potts, Christopher and Manning, Christopher D},
  journal={arXiv preprint arXiv:1508.05326},
  year={2015}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colla/qnli

  • Descrizione Config: La Stanford Question Answering Dataset è un insieme di dati di domande rispondendo composto da coppie di domanda-paragrafo, in cui una delle frasi del paragrafo (tratto da Wikipedia) contiene la risposta alla domanda corrispondente (scritto da un commentatore). Convertiamo il compito in una classificazione di coppie di frasi formando una coppia tra ogni domanda e ogni frase nel contesto corrispondente e filtrando le coppie con una bassa sovrapposizione lessicale tra la domanda e la frase di contesto. Il compito è determinare se la frase di contesto contiene la risposta alla domanda. Questa versione modificata dell'attività originale rimuove il requisito che il modello selezioni la risposta esatta, ma rimuove anche le ipotesi semplificatrici che la risposta sia sempre presente nell'input e che la sovrapposizione lessicale sia un segnale affidabile.

  • Homepage: https://rajpurkar.github.io/SQuAD-explorer/

  • Dimensione del download: 10.14 MiB

  • Dataset dimensioni: 32.99 MiB

  • divide:

Diviso Esempi
'test' 5.463
'train' 104.743
'validation' 5.463
  • Caratteristiche:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'question': Text(shape=(), dtype=tf.string),
    'sentence': Text(shape=(), dtype=tf.string),
})
  • citazione:
@article{rajpurkar2016squad,
  title={Squad: 100,000+ questions for machine comprehension of text},
  author={Rajpurkar, Pranav and Zhang, Jian and Lopyrev, Konstantin and Liang, Percy},
  journal={arXiv preprint arXiv:1606.05250},
  year={2016}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colla/rte

  • Descrizione Config: I Riconoscendo testuale Entailment (RTE) set di dati provengono da una serie di sfide annuali implicanti testuali. Combiniamo i dati di RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) e RTE5 (Bentivogli et al., 2009).4 Gli esempi sono costruito sulla base di notizie e testo di Wikipedia. Convertiamo tutti i set di dati in una divisione a due classi, dove per i set di dati a tre classi collassiamo la neutralità e la contraddizione in non implicazione, per coerenza.

  • Homepage: https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Dimensione del download: 680.81 KiB

  • Dataset dimensioni: 2.15 MiB

  • divide:

Diviso Esempi
'test' 3.000
'train' 2,490
'validation' 277
  • Caratteristiche:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • citazione:
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colla/wnli

  • Descrizione Config: Il Winograd Schema Challenge (. Levesque et al, 2011) è un compito di comprensione della lettura in cui un sistema deve leggere una frase con un pronome e selezionare il referente di quel pronome da un elenco di scelte. Gli esempi sono costruiti manualmente per sventare semplici metodi statistici: ognuno dipende dalle informazioni contestuali fornite da una singola parola o frase nella frase. Per convertire il problema in una classificazione di coppie di frasi, costruiamo coppie di frasi sostituendo il pronome ambiguo con ogni possibile referente. Il compito è di prevedere se la frase con il pronome sostituito è implicata dalla frase originale. Usiamo un piccolo set di valutazione composto da nuovi esempi derivati ​​da libri di narrativa che è stato condiviso privatamente dagli autori del corpus originale. Mentre il set di allenamento incluso è bilanciato tra due classi, il set di test è sbilanciato tra di loro (65% non implicazione). Inoltre, a causa di una stranezza dei dati, il set di sviluppo è contraddittorio: a volte le ipotesi sono condivise tra esempi di addestramento e di sviluppo, quindi se un modello memorizza gli esempi di addestramento, predirà l'etichetta sbagliata sull'esempio di set di sviluppo corrispondente. Come con QNLI, ogni esempio viene valutato separatamente, quindi non c'è una corrispondenza sistematica tra il punteggio di un modello su questa attività e il suo punteggio sull'attività originale non convertita. Chiamiamo il set di dati convertito WNLI (Winograd NLI).

  • Homepage: https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html

  • Dimensione del download: 28.32 KiB

  • Dataset dimensioni: 198.88 KiB

  • divide:

Diviso Esempi
'test' 146
'train' 635
'validation' 71
  • Caratteristiche:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • citazione:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.

colla/ascia

  • Descrizione config: Una manualmente curato set di dati di valutazione per l'analisi grana fine delle prestazioni del sistema su una vasta gamma di fenomeni linguistici. Questo set di dati valuta la comprensione delle frasi attraverso problemi di Natural Language Inference (NLI). Utilizza un modello addestrato su MulitNLI per produrre previsioni per questo set di dati.

  • Homepage: https://gluebenchmark.com/diagnostics

  • Dimensione del download: 217.05 KiB

  • Dataset dimensioni: 299.16 KiB

  • divide:

Diviso Esempi
'test' 1,104
  • Caratteristiche:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • citazione:
@inproceedings{wang2019glue,
  title={ {GLUE}: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding},
  author={Wang, Alex and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R.},
  note={In the Proceedings of ICLR.},
  year={2019}
}

Note that each GLUE dataset has its own citation. Please see the source to see
the correct citation for each contained dataset.