Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

Super klej

  • opis:

SuperGlue ( https://super.gluebenchmark.com/ ) jest nowym wyznacznikiem stylu po kleju z nowym zestawem trudniejszych zadań językowych zrozumienia, ulepszonych zasobów oraz nowej tablicy publicznego.

super_glue/boolq (konfiguracja domyślna)

  • Opis config: BoolQ (. Logiczne pytania, Clark i inni, 2019a) jest zadaniem QA gdzie każdy przykład składa się z krótkiego przejścia i tak / nie pytanie o przejście. Pytania są dostarczane anonimowo i niezamówione przez użytkowników wyszukiwarki Google, a następnie łączone z akapitem z artykułu w Wikipedii zawierającym odpowiedź. Zgodnie z oryginalną pracą oceniamy z dokładnością.

  • Strona domowa: https://github.com/google-research-datasets/boolean-questions

  • Wielkość pliku: 3.93 MiB

  • dzieli:

Podział Przykłady
'test' 3245
'train' 9427
'validation' 3270
  • Cechy:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'passage': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • cytat:
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_klej/cb

  • Opis config: (. De Marneffe et al, 2019) CommitmentBank jest corpus krótkich tekstów, w których co najmniej jedno zdanie zawiera wbudowany klauzuli. Każda z tych osadzonych klauzul jest opisana w stopniu, w jakim oczekujemy, że osoba, która napisała tekst, jest zobowiązana do prawdziwości klauzuli. Wynikające z tego zadanie sformułowano jako trzyklasowe nałożenie tekstu na przykłady zaczerpnięte z Wall Street Journal, fikcji z British National Corpus i Switchboard. Każdy przykład składa się z przesłanki zawierającej osadzoną klauzulę, a odpowiadająca jej hipoteza to wyodrębnienie tej klauzuli. Używamy podzbioru danych, które miały zgodność między adnotatorami powyżej 0,85. Dane są niezrównoważone (stosunkowo mniej neutralnych przykładów), więc oceniamy przy użyciu dokładności i F1, gdzie dla wielu klas F1 obliczamy nieważoną średnią F1 na klasę.

  • Strona domowa: https://github.com/mcdm/CommitmentBank

  • Wielkość pliku: 73.71 KiB

  • dzieli:

Podział Przykłady
'test' 250
'train' 250
'validation' 56
  • Cechy:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • cytat:
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_klej/copa

  • Opis config: Wybór prawdopodobna. Alternatywy (COPA, Roemmele et al, 2011) zbiór danych jest zadaniem rozumowanie przyczynowo-skutkowy, w którym system jest skazany na karę przesłankę i dwóch możliwych alternatyw. System musi wybrać alternatywę, która ma bardziej prawdopodobny związek przyczynowy z przesłanką. Metoda użyta do konstrukcji alternatyw zapewnia, że ​​zadanie wymaga do rozwiązania przyczynowego rozumowania. Przykłady dotyczą albo alternatywnych możliwych przyczyn, albo alternatywnych możliwych skutków zdania przesłanki, któremu towarzyszy proste pytanie ujednoznaczniające między dwoma typami instancji dla modelu. Wszystkie przykłady są wykonane ręcznie i koncentrują się na tematach z blogów internetowych i encyklopedii związanej z fotografią. Zgodnie z zaleceniem autorów oceniamy z dokładnością.

  • Strona domowa: http://people.ict.usc.edu/~gordon/copa.html

  • Wielkość pliku: 42.96 KiB

  • dzieli:

Podział Przykłady
'test' 500
'train' 400
'validation' 100
  • Cechy:
FeaturesDict({
    'choice1': Text(shape=(), dtype=tf.string),
    'choice2': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • cytat:
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/multirc

  • Opis config: Multi-Zdanie Czytanie ze zrozumieniem zbiór danych (. MultiRC, Khashabi et al, 2018) to prawda / fałsz pytanie, odpowiadając zadaniem. Każdy przykład składa się z akapitu kontekstowego, pytania dotyczącego tego akapitu oraz listy możliwych odpowiedzi na to pytanie, które muszą być oznaczone jako prawda lub fałsz. Odpowiedzi na pytania (QA) to popularny problem z wieloma zestawami danych. Używamy MultiRC ze względu na szereg pożądanych właściwości: (i) każde pytanie może mieć wiele możliwych poprawnych odpowiedzi, więc każda para pytanie-odpowiedź musi być oceniana niezależnie od innych par, (ii) pytania są zaprojektowane tak, że odpowiedź na każde pytanie wymaga rysowanie faktów z wielu zdań kontekstowych oraz (iii) format pary pytanie-odpowiedź bardziej odpowiada API innych zadań SuperGLUE niż ekstrakcyjna kontrola jakości oparta na span. Paragrafy pochodzą z siedmiu dziedzin, w tym wiadomości, fikcji i tekstu historycznego.

  • Strona domowa: https://cogcomp.org/multirc/

  • Wielkość pliku: 1.06 MiB

  • dzieli:

Podział Przykłady
'test' 9,693
'train' 27 243
'validation' 4848
  • Cechy:
FeaturesDict({
    'answer': Text(shape=(), dtype=tf.string),
    'idx': FeaturesDict({
        'answer': tf.int32,
        'paragraph': tf.int32,
        'question': tf.int32,
    }),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • cytat:
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_klej/rekord

  • Opis config: (. Czytanie ze zrozumieniem ze zdrowym rozsądkiem wnioskowania zbioru danych, Zhang et al, 2018) jest zadaniem QA wielokrotnego wyboru. Każdy przykład składa się z artykułu z wiadomościami i pytania w stylu Cloze dotyczące artykułu, w którym jedna jednostka jest zamaskowana. System musi przewidzieć zamaskowaną jednostkę z podanej listy możliwych jednostek w udostępnionym fragmencie, gdzie ta sama jednostka może być wyrażona przy użyciu wielu różnych form powierzchni, z których wszystkie są uważane za poprawne. Artykuły pochodzą z CNN i Daily Mail. Podążając za oryginalną pracą, oceniamy z maksymalnym (po wszystkich wzmiankach) F1 na poziomie tokena i dokładnym dopasowaniem (EM).

  • Strona domowa: https://sheng-z.github.io/ReCoRD-explorer/

  • Wielkość pliku: 49.36 MiB

  • dzieli:

Podział Przykłady
'test' 10 000
'train' 100,730
'validation' 10 000
  • Cechy:
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=tf.string)),
    'entities': Sequence(Text(shape=(), dtype=tf.string)),
    'idx': FeaturesDict({
        'passage': tf.int32,
        'query': tf.int32,
    }),
    'passage': Text(shape=(), dtype=tf.string),
    'query': Text(shape=(), dtype=tf.string),
})
  • cytat:
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_klej/rte

  • Opis config: The Uznając Textual Entailment (RTE) zbiory danych pochodzą z serii corocznych konkursów na tekstowej wynikania, problem przewidywania, czy dany zdaniu abonenckich wiąże daną zdanie hipotezy (znany również jako wnioskowania języka naturalnego, NLI). RTE było wcześniej zawarte w GLUE i używamy tych samych danych i formatu co poprzednio: Łączymy dane z RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) i RTE5 (Bentivogli i in., 2009). Wszystkie zestawy danych są łączone i konwertowane na klasyfikację dwuklasową: pociąganie i nieuznawanie. Spośród wszystkich zadań GLUE, RTE było jednym z tych, które najbardziej skorzystały na uczeniu się transferu, przeskakując z wydajności bliskiej losowej szansy (~56%) w momencie uruchomienia GLUE do dokładności 85% (Liu i in., 2019c) w czas pisania. Jednak biorąc pod uwagę ośmiopunktową lukę w odniesieniu do wydajności człowieka, zadanie nie zostało jeszcze rozwiązane przez maszyny i spodziewamy się, że pozostała luka będzie trudna do zlikwidowania.

  • Strona domowa: https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Wielkość pliku: 733.32 KiB

  • dzieli:

Podział Przykłady
'test' 3000
'train' 2490
'validation' 277
  • Cechy:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • cytat:
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_klej/wic

  • Opis config: Słowo-in-context (WIC, Pilehvar i Camacho-Collados, 2019) zbioru danych obsługuje sens wyrazu lane zadanie ujednoznacznienie jako klasyfikacji binarnej nad parami zdanie. Mając dwa zdania i słowo wieloznaczne (niejednoznaczne w sensie sensu), które pojawia się w obu zdaniach, zadaniem jest ustalenie, czy słowo to ma ten sam sens w obu zdaniach. Zdania pochodzą z WordNet (Miller, 1995), VerbNet (Schuler, 2005) i Wikisłownikiem. Śledzimy oryginalną pracę i oceniamy z dokładnością.

  • Strona domowa: https://pilehvar.github.io/wic/

  • Wielkość pliku: 386.93 KiB

  • dzieli:

Podział Przykłady
'test' 1400
'train' 5428
'validation' 638
  • Cechy:
FeaturesDict({
    'end1': tf.int32,
    'end2': tf.int32,
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
    'start1': tf.int32,
    'start2': tf.int32,
    'word': Text(shape=(), dtype=tf.string),
})
  • cytat:
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_klej/wsc

  • Opis config: The Winograd Schema Wyzwanie (. WSC, Levesque et al, 2012) jest zadaniem czytanie ze zrozumieniem, w którym system musi przeczytać zdanie z zaimkiem i wybierz referent tego zaimka z listy wyboru. Biorąc pod uwagę trudność tego zadania i wciąż pozostawiony zapas, włączyliśmy WSC do SuperGLUE i przekształciliśmy zbiór danych do postaci referencyjnej. Zadanie przedstawia się jako problem klasyfikacji binarnej, w przeciwieństwie do N-wielokrotnego wyboru, w celu wyodrębnienia zdolności modelu do zrozumienia powiązań koreferencyjnych w zdaniu, w przeciwieństwie do różnych innych strategii, które mogą mieć zastosowanie w warunkach wielokrotnego wyboru. Mając to na uwadze, tworzymy podział z 65% negatywną klasą większości w zestawie walidacyjnym, odzwierciedlającym rozkład ukrytego zestawu testowego i 52% negatywną klasą w zestawie uczącym. Przykłady szkolenia i walidacji pochodzą z oryginalnego zbioru danych Winograd Schema (Levesque i in., 2012), a także z danych dystrybuowanych przez afiliowaną organizację Commonsense Reasoning. Przykłady testowe pochodzą z książek fikcyjnych i zostały nam udostępnione przez autorów oryginalnego zestawu danych. Wcześniej wersja WSC przekształcona jako NLI zawarta w GLUE, znana jako WNLI. Nie poczyniono żadnych znaczących postępów w WNLI, a wiele zgłoszeń zdecydowało się przesłać tylko prognozy klasy większości. WNLI było szczególnie trudne ze względu na podział na pociąg/deweloper przeciwnika: zdania przesłanki, które pojawiły się w zestawie szkoleniowym, czasami pojawiały się w zestawie rozwojowym z inną hipotezą i odwróconą etykietą. Gdyby system zapamiętywał zbiór uczący bez znaczącego uogólniania, co było łatwe ze względu na mały rozmiar zbioru uczącego, mógłby działać znacznie poniżej szansy na zbiorze rozwojowym. Usuwamy ten wrogi projekt w wersji SuperGLUE WSC, zapewniając, że żadne zdania nie są dzielone między zestawy treningowe, walidacyjne i testowe.

Jednak zbiory walidacyjne i testowe pochodzą z różnych dziedzin, przy czym zbiór walidacyjny składa się z niejednoznacznych przykładów, tak że zmiana jednego wyrazu wyrażenia innego niż rzeczownik spowoduje zmianę zależności współreferencyjnych w zdaniu. Zestaw testowy składa się tylko z prostszych przykładów, z dużą liczbą fraz rzeczownikowych (a tym samym z większą liczbą opcji do wyboru), ale z małą lub zerową niejednoznacznością.

Podział Przykłady
'test' 146
'train' 554
'validation' 104
  • Cechy:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • cytat:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue/wsc.fixed

  • Opis config: The Winograd Schema Wyzwanie (. WSC, Levesque et al, 2012) jest zadaniem czytanie ze zrozumieniem, w którym system musi przeczytać zdanie z zaimkiem i wybierz referent tego zaimka z listy wyboru. Biorąc pod uwagę trudność tego zadania i wciąż pozostającą rezerwę, włączyliśmy WSC do SuperGLUE i przekształciliśmy zbiór danych do postaci referencyjnej. Zadanie przedstawia się jako problem klasyfikacji binarnej, w przeciwieństwie do N-wielokrotnego wyboru, w celu wyodrębnienia zdolności modelu do zrozumienia powiązań koreferencyjnych w zdaniu, w przeciwieństwie do różnych innych strategii, które mogą mieć zastosowanie w warunkach wielokrotnego wyboru. Mając to na uwadze, tworzymy podział z 65% negatywną klasą większości w zestawie walidacyjnym, odzwierciedlającym rozkład ukrytego zestawu testowego i 52% negatywną klasą w zestawie uczącym. Przykłady szkolenia i walidacji pochodzą z oryginalnego zbioru danych Winograd Schema (Levesque i in., 2012), a także z danych dystrybuowanych przez afiliowaną organizację Commonsense Reasoning. Przykłady testowe pochodzą z książek fikcyjnych i zostały nam udostępnione przez autorów oryginalnego zestawu danych. Wcześniej wersja WSC przekształcona jako NLI zawarta w GLUE, znana jako WNLI. Nie poczyniono żadnych znaczących postępów w zakresie WNLI, a wiele zgłoszeń zdecydowało się przesłać tylko prognozy klasy większości. WNLI było szczególnie trudne ze względu na podział na pociąg/deweloper przeciwnika: zdania przesłanki, które pojawiły się w zestawie szkoleniowym, czasami pojawiały się w zestawie rozwojowym z inną hipotezą i odwróconą etykietą. Gdyby system zapamiętywał zbiór uczący bez znaczącego uogólniania, co było łatwe ze względu na mały rozmiar zbioru uczącego, mógłby działać znacznie poniżej szansy na zbiorze rozwojowym. Usuwamy ten wrogi projekt w wersji SuperGLUE WSC, zapewniając, że żadne zdania nie są dzielone między zestawy treningowe, walidacyjne i testowe.

Jednak zbiory walidacyjne i testowe pochodzą z różnych dziedzin, przy czym zbiór walidacyjny składa się z niejednoznacznych przykładów, tak że zmiana jednego wyrazu wyrażenia innego niż rzeczownik spowoduje zmianę zależności współreferencyjnych w zdaniu. Zestaw testowy składa się tylko z prostszych przykładów, z dużą liczbą fraz rzeczownikowych (a tym samym z większą liczbą opcji do wyboru), ale z małą lub zerową niejednoznacznością.

Ta wersja rozwiązuje problemy polegające na tym, że zakresy nie są w rzeczywistości podciągami tekstu.

Podział Przykłady
'test' 146
'train' 554
'validation' 104
  • Cechy:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • cytat:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_klej/axb

  • Opis config: Ekspert skonstruowane, diagnostyczny zestaw danych, który automatycznie sprawdza modele dla szerokiej gamy językowej, zdroworozsądkowym i światowej wiedzy. Każdy przykład w tej szeroko zakrojonej diagnostyce to para zdań oznaczonych trójstronną relacją wynikającą (uwikłanie, neutralność lub sprzeczność) i oznaczonych etykietami, które wskazują zjawiska charakteryzujące relację między tymi dwoma zdaniami. Zgłoszenia do tabeli wyników GLUE muszą zawierać prognozy z klasyfikatora MultiNLI zgłoszenia w zestawie danych diagnostycznych, a analizy wyników były wyświetlane obok głównej tabeli wyników. Ponieważ to szeroko zakrojone zadanie diagnostyczne okazało się trudne dla najlepszych modeli, zachowujemy je w SuperGLUE. Jednak ponieważ MultiNLI nie jest częścią SuperGLUE, łączymy sprzeczność i neutralność w jedną etykietę not_entailment i żądamy, aby zgłoszenia zawierały przewidywania dotyczące wynikowego zestawu z modelu użytego do zadania RTE.

  • Strona domowa: https://gluebenchmark.com/diagnostics

  • Wielkość pliku: 33.15 KiB

  • dzieli:

Podział Przykłady
'test' 1,104
  • Cechy:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • cytat:
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_klej/axg

  • Config opis: Winogender jest przeznaczony do pomiaru polaryzacji płci w systemach rozdzielczości coreference. Używamy wersji Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018), która rzuca Winogender jako zadanie tekstowe implikacji. Każdy przykład składa się ze zdania przesłanki z zaimkiem męskim lub żeńskim oraz hipotezą podającą możliwy poprzednik zaimka. Przykłady występują w parach minimalnych, gdzie jedyną różnicą między przykładem a jego parą jest rodzaj zaimka w założeniu. Wyniki w programie Winogender są mierzone zarówno z dokładnością, jak i z wynikiem parytetu płci: procentem minimalnych par, dla których przewidywania są takie same. Zauważamy, że system może w trywialny sposób uzyskać doskonały wynik parzystości płci, odgadując tę ​​samą klasę dla wszystkich przykładów, więc wysoki wynik parzystości płci jest bez znaczenia, o ile nie towarzyszy mu wysoka dokładność. Jako test diagnostyczny uprzedzeń związanych z płcią uważamy, że schematy mają wysoką pozytywną wartość predykcyjną i niską negatywną wartość predykcyjną; to znaczy mogą wykazać obecność uprzedzeń związanych z płcią w systemie, ale nie udowadniać jej braku.

  • Strona domowa: https://github.com/rudinger/winogender-schemas

  • Wielkość pliku: 10.17 KiB

  • dzieli:

Podział Przykłady
'test' 356
  • Cechy:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • cytat:
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.