- Описание :
SuperGLUE ( https://super.gluebenchmark.com/ ) - это новый тест, созданный после GLUE с новым набором более сложных задач понимания языка, улучшенными ресурсами и новой общедоступной таблицей лидеров.
Исходный код :
tfds.text.SuperGlue
Версии :
-
1.0.2
(по умолчанию): без примечаний к выпуску.
-
Размер набора данных :
Unknown size
Автоматическое кэширование ( документация ): неизвестно
Контролируемые ключи (см.
as_supervised
doc ):None
Рисунок ( tfds.show_examples ): не поддерживается.
super_glue / boolq (конфигурация по умолчанию)
Описание конфигурации : BoolQ (Boolean Questions, Clark et al., 2019a) - это задача контроля качества, в которой каждый пример состоит из короткого отрывка и вопроса с да / нет о переходе. Вопросы задаются анонимно и без запроса пользователями поисковой системы Google, а затем в сочетании с абзацем из статьи в Википедии, содержащим ответ. Следуя оригинальной работе, оцениваем с точностью.
Домашняя страница : https://github.com/google-research-datasets/boolean-questions
Размер загрузки :
3.93 MiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 3 245 |
'train' | 9 427 |
'validation' | 3 270 |
- Особенности :
FeaturesDict({
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'passage': Text(shape=(), dtype=tf.string),
'question': Text(shape=(), dtype=tf.string),
})
- Цитата :
@inproceedings{clark2019boolq,
title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
booktitle={NAACL},
year={2019}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
- Примеры ( tfds.as_dataframe ):
super_glue / cb
Описание конфигурации : CommitmentBank (De Marneffe et al., 2019) - это корпус коротких текстов, в которых хотя бы одно предложение содержит встроенное предложение. Каждый из этих встроенных пунктов снабжен аннотациями, указывающими на степень, в которой мы ожидаем, что человек, написавший текст, привержен истинности пункта. Полученная в результате задача оформлена как трехклассное текстовое следствие на примерах, взятых из Wall Street Journal, художественной литературы из Британского национального корпуса и Switchboard. Каждый пример состоит из предпосылки, содержащей вложенное предложение, а соответствующая гипотеза - это извлечение этого предложения. Мы используем подмножество данных, для которых согласованность аннотаторов была выше 0,85. Данные несбалансированы (относительно меньше нейтральных примеров), поэтому мы оцениваем, используя точность и F1, где для мультиклассового F1 мы вычисляем невзвешенное среднее значение F1 для каждого класса.
Домашняя страница : https://github.com/mcdm/CommitmentBank
Размер загрузки :
73.71 KiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 250 |
'train' | 250 |
'validation' | 56 |
- Особенности :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=tf.string),
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
'premise': Text(shape=(), dtype=tf.string),
})
- Цитата :
@article{de marneff_simons_tonhauser_2019,
title={The CommitmentBank: Investigating projection in naturally occurring discourse},
journal={proceedings of Sinn und Bedeutung 23},
author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
year={2019}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
- Примеры ( tfds.as_dataframe ):
super_glue / copa
Описание конфигурации : Набор данных «Выбор правдоподобных альтернатив» (COPA, Roemmele et al., 2011) - это задача причинного рассуждения, в которой системе дается исходное предложение и две возможные альтернативы. Система должна выбрать альтернативу, которая имеет более правдоподобную причинную связь с предпосылкой. Метод, используемый для построения альтернатив, гарантирует, что задача требует причинного обоснования для решения. В примерах рассматриваются либо альтернативные возможные причины, либо альтернативные возможные последствия предложения-предпосылки, сопровождаемые простым вопросом, устраняющим неоднозначность между двумя типами экземпляров для модели. Все примеры созданы вручную и посвящены темам из онлайн-блогов и энциклопедии, связанной с фотографией. Следуя рекомендации авторов, мы оцениваем точность.
Домашняя страница : http://people.ict.usc.edu/~gordon/copa.html
Размер загрузки :
42.96 KiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 500 |
'train' | 400 |
'validation' | 100 |
- Особенности :
FeaturesDict({
'choice1': Text(shape=(), dtype=tf.string),
'choice2': Text(shape=(), dtype=tf.string),
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'premise': Text(shape=(), dtype=tf.string),
'question': Text(shape=(), dtype=tf.string),
})
- Цитата :
@inproceedings{roemmele2011choice,
title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
booktitle={2011 AAAI Spring Symposium Series},
year={2011}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
- Примеры ( tfds.as_dataframe ):
super_glue / multirc
Описание конфигурации : набор данных Multi-Sentence Reading Computing (MultiRC, Khashabi et al., 2018) представляет собой задачу с ответами на вопросы "правда / ложь". Каждый пример состоит из контекстного абзаца, вопроса об этом абзаце и списка возможных ответов на этот вопрос, которые должны быть помечены как истинные или ложные. Ответы на вопросы (QA) - популярная проблема со многими наборами данных. Мы используем MultiRC из-за ряда желаемых свойств: (i) каждый вопрос может иметь несколько возможных правильных ответов, поэтому каждая пара вопрос-ответ должна оцениваться независимо от других пар, (ii) вопросы разработаны таким образом, что для ответа на каждый вопрос требуется извлечение фактов из нескольких контекстных предложений и (iii) формат пары вопрос-ответ более точно соответствует API других задач SuperGLUE, чем это делает экстрактивное QA на основе диапазона. Абзацы взяты из семи областей, включая новости, художественную литературу и исторический текст.
Домашняя страница : https://cogcomp.org/multirc/
Размер загрузки :
1.06 MiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 9 693 |
'train' | 27 243 |
'validation' | 4 848 |
- Особенности :
FeaturesDict({
'answer': Text(shape=(), dtype=tf.string),
'idx': FeaturesDict({
'answer': tf.int32,
'paragraph': tf.int32,
'question': tf.int32,
}),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'paragraph': Text(shape=(), dtype=tf.string),
'question': Text(shape=(), dtype=tf.string),
})
- Цитата :
@inproceedings{MultiRC2018,
author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
year = {2018}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
- Примеры ( tfds.as_dataframe ):
super_glue / запись
Описание конфигурации : (Reading Computing with Commonsense Reasoning Dataset, Zhang et al., 2018) - это задача QA с множественным выбором. Каждый пример состоит из новостной статьи и вопроса в стиле Cloze о статье, в которой замаскирована одна сущность. Система должна предсказать замаскированный объект из заданного списка возможных объектов в предоставленном отрывке, где один и тот же объект может быть выражен с использованием нескольких различных поверхностных форм, все из которых считаются правильными. Статьи взяты из CNN и Daily Mail. Следуя исходной работе, мы оцениваем с максимальным (по всем упоминаниям) уровнем токена F1 и точным соответствием (EM).
Домашняя страница : https://sheng-z.github.io/ReCoRD-explorer/
Размер загрузки :
49.36 MiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 10 000 |
'train' | 100 730 |
'validation' | 10 000 |
- Особенности :
FeaturesDict({
'answers': Sequence(Text(shape=(), dtype=tf.string)),
'entities': Sequence(Text(shape=(), dtype=tf.string)),
'idx': FeaturesDict({
'passage': tf.int32,
'query': tf.int32,
}),
'passage': Text(shape=(), dtype=tf.string),
'query': Text(shape=(), dtype=tf.string),
})
- Цитата :
@article{zhang2018record,
title={Record: Bridging the gap between human and machine commonsense reading comprehension},
author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
journal={arXiv preprint arXiv:1810.12885},
year={2018}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
- Примеры ( tfds.as_dataframe ):
super_glue / rte
Описание конфигурации : Наборы данных «Распознавание текстового следования» (RTE) происходят из серии ежегодных соревнований по текстовому следствию - проблеме предсказания того, влечет ли данное предложение-предпосылка заданное предложение-гипотезу (также известное как вывод естественного языка, NLI). RTE ранее был включен в GLUE, и мы используем те же данные и формат, что и раньше: мы объединяем данные из RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) и RTE5 (Bentivogli et al., 2009). Все наборы данных объединяются и преобразуются в двухклассовую классификацию: entailment и not_entailment. Из всех задач GLUE RTE была одной из тех, которые больше всего выиграли от трансферного обучения, перескочив с почти случайной производительности (~ 56%) на момент запуска GLUE до точности 85% (Liu et al., 2019c) в время написания. Однако, учитывая разрыв в восемь баллов по производительности человека, задача еще не решена машинами, и мы ожидаем, что остающийся разрыв будет трудно преодолеть.
Домашняя страница : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment
Размер загрузки :
733.32 KiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 3 000 |
'train' | 2,490 |
'validation' | 277 |
- Особенности :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=tf.string),
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'premise': Text(shape=(), dtype=tf.string),
})
- Цитата :
@inproceedings{dagan2005pascal,
title={The PASCAL recognising textual entailment challenge},
author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
booktitle={Machine Learning Challenges Workshop},
pages={177--190},
year={2005},
organization={Springer}
}
@inproceedings{bar2006second,
title={The second pascal recognising textual entailment challenge},
author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
volume={6},
number={1},
pages={6--4},
year={2006},
organization={Venice}
}
@inproceedings{giampiccolo2007third,
title={The third pascal recognizing textual entailment challenge},
author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
pages={1--9},
year={2007},
organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
booktitle={TAC},
year={2009}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
- Примеры ( tfds.as_dataframe ):
super_glue / wic
Описание конфигурации : набор данных Word-in-Context (WiC, Pilehvar and Camacho-Collados, 2019) поддерживает задачу устранения неоднозначности смысла слов, выраженную в виде двоичной классификации по парам предложений. Учитывая два предложения и многозначное (неоднозначное по значению) слово, которое встречается в обоих предложениях, задача состоит в том, чтобы определить, используется ли слово в одном и том же смысле в обоих предложениях. Предложения взяты из WordNet (Miller, 1995), VerbNet (Schuler, 2005) и Wiktionary. Мы следим за оригинальной работой и оцениваем точность.
Домашняя страница : https://pilehvar.github.io/wic/
Размер загрузки :
386.93 KiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 1,400 |
'train' | 5 428 |
'validation' | 638 |
- Особенности :
FeaturesDict({
'end1': tf.int32,
'end2': tf.int32,
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence1': Text(shape=(), dtype=tf.string),
'sentence2': Text(shape=(), dtype=tf.string),
'start1': tf.int32,
'start2': tf.int32,
'word': Text(shape=(), dtype=tf.string),
})
- Цитата :
@article{DBLP:journals/corr/abs-1808-09121,
author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
journal={CoRR},
volume={abs/1808.09121},
year={2018},
url={http://arxiv.org/abs/1808.09121},
archivePrefix={arXiv},
eprint={1808.09121},
timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
- Примеры ( tfds.as_dataframe ):
super_glue / wsc
- Описание конфигурации : Winograd Schema Challenge (WSC, Levesque et al., 2012) - это задача понимания прочитанного, в которой система должна прочитать предложение с местоимением и выбрать референт этого местоимения из списка вариантов. Учитывая сложность этой задачи и все еще оставшийся запас, мы включили WSC в SuperGLUE и переделали набор данных в форму кореференции. Задача представлена как проблема бинарной классификации, в отличие от N-множественного выбора, чтобы изолировать способность модели понимать ссылки кореферентности в предложении, в отличие от различных других стратегий, которые могут вступать в игру в условиях множественного выбора. Имея это в виду, мы создаем разделение с 65% отрицательного класса большинства в наборе проверки, отражающим распределение скрытого набора тестов, и 52% отрицательного класса в наборе обучения. Примеры обучения и проверки взяты из исходного набора данных Winograd Schema (Levesque et al., 2012), а также распространяются дочерней организацией Commonsense Reasoning. Примеры тестов взяты из художественной литературы и предоставлены нам авторами исходного набора данных. Ранее версия WSC преобразовывалась как NLI, включенная в GLUE, известная как WNLI. По WNLI не было достигнуто значительного прогресса, многие заявки предпочитали представлять только прогнозы большинства классов. WNLI был особенно затруднен из-за враждебного разделения на обучение и разработку: предложения-предпосылки, которые появлялись в обучающем наборе, иногда появлялись в наборе для разработки с другой гипотезой и перевернутой меткой. Если система запоминала обучающую выборку без значимого обобщения, что было легко из-за небольшого размера обучающей выборки, она могла бы работать намного ниже вероятности на развивающей выборке. Мы устраняем этот состязательный дизайн в версии WSC SuperGLUE, гарантируя, что никакие предложения не используются совместно между наборами для обучения, проверки и тестирования.
Однако наборы для проверки и тестирования происходят из разных доменов, причем набор для проверки состоит из неоднозначных примеров, так что изменение одного слова, не являющегося существительным, изменит зависимости кореферентности в предложении. Набор тестов состоит только из более простых примеров, с большим количеством словосочетаний с существительными (и, следовательно, с большим выбором модели), но с низким уровнем двусмысленности или без нее.
Домашняя страница : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
Размер загрузки :
31.98 KiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 146 |
'train' | 554 |
'validation' | 104 |
- Особенности :
FeaturesDict({
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'span1_index': tf.int32,
'span1_text': Text(shape=(), dtype=tf.string),
'span2_index': tf.int32,
'span2_text': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
})
- Цитата :
@inproceedings{levesque2012winograd,
title={The winograd schema challenge},
author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
year={2012}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
- Примеры ( tfds.as_dataframe ):
super_glue / wsc.fixed
- Описание конфигурации : Winograd Schema Challenge (WSC, Levesque et al., 2012) - это задача понимания прочитанного, в которой система должна прочитать предложение с местоимением и выбрать референт этого местоимения из списка вариантов. Учитывая сложность этой задачи и все еще оставшийся запас, мы включили WSC в SuperGLUE и переделали набор данных в форму кореференции. Задача представлена как проблема бинарной классификации, в отличие от N-множественного выбора, чтобы изолировать способность модели понимать ссылки кореферентности в предложении, в отличие от различных других стратегий, которые могут вступать в игру в условиях множественного выбора. Имея это в виду, мы создаем разделение с 65% отрицательного класса большинства в наборе проверки, отражающим распределение скрытого набора тестов, и 52% отрицательного класса в наборе обучения. Примеры обучения и проверки взяты из исходного набора данных Winograd Schema (Levesque et al., 2012), а также распространяются дочерней организацией Commonsense Reasoning. Примеры тестов взяты из художественной литературы и предоставлены нам авторами исходного набора данных. Ранее версия WSC преобразовывалась как NLI, включенная в GLUE, известная как WNLI. По WNLI не было достигнуто значительного прогресса, многие заявки предпочитали представлять только прогнозы большинства классов. WNLI был особенно затруднен из-за враждебного разделения на обучение и разработку: предложения, которые появлялись в обучающем наборе, иногда появлялись в наборе для разработки с другой гипотезой и перевернутой меткой. Если система запоминала обучающую выборку без значимого обобщения, что было легко из-за небольшого размера обучающей выборки, она могла бы работать намного ниже вероятности на развивающей выборке. Мы устраняем этот состязательный дизайн в версии WSC SuperGLUE, гарантируя, что никакие предложения не будут разделены между наборами для обучения, проверки и тестирования.
Однако наборы для проверки и тестирования происходят из разных доменов, причем набор для проверки состоит из неоднозначных примеров, так что изменение одного слова, не являющегося существительным, изменит зависимости кореферентности в предложении. Набор тестов состоит только из более простых примеров с большим количеством словосочетаний с существительными (и, следовательно, с большим количеством вариантов для модели), но с низким уровнем двусмысленности или без нее.
В этой версии исправлены проблемы, когда промежутки на самом деле не являются подстроками текста.
Домашняя страница : https://cs.nyu.edu/faculty/davise/papers/WinogradSchemas/WS.html
Размер загрузки :
31.98 KiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 146 |
'train' | 554 |
'validation' | 104 |
- Особенности :
FeaturesDict({
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'span1_index': tf.int32,
'span1_text': Text(shape=(), dtype=tf.string),
'span2_index': tf.int32,
'span2_text': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
})
- Цитата :
@inproceedings{levesque2012winograd,
title={The winograd schema challenge},
author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
year={2012}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
- Примеры ( tfds.as_dataframe ):
super_glue / axb
Описание конфигурации : составленный экспертами диагностический набор данных, который автоматически проверяет модели на предмет широкого спектра лингвистических, здравых и мировых знаний. Каждый пример в этой диагностике с широким охватом представляет собой пару предложений, помеченных трехсторонним отношением следствия (следствие, нейтраль или противоречие) и помеченных ярлыками, которые указывают явления, которые характеризуют отношения между двумя предложениями. Отправленные в таблицу лидеров GLUE должны включать прогнозы из классификатора MultiNLI отправки в набор диагностических данных, а анализ результатов был показан рядом с основной таблицей лидеров. Поскольку эта задача диагностики с широким охватом оказалась сложной для топовых моделей, мы сохраняем ее в SuperGLUE. Однако, поскольку MultiNLI не является частью SuperGLUE, мы сворачиваем противоречивые и нейтральные данные в одну метку not_entailment и запрашиваем, чтобы представленные материалы включали прогнозы для результирующего набора из модели, используемой для задачи RTE.
Домашняя страница : https://gluebenchmark.com/diagnostics
Размер загрузки :
33.15 KiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 1 104 |
- Особенности :
FeaturesDict({
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'sentence1': Text(shape=(), dtype=tf.string),
'sentence2': Text(shape=(), dtype=tf.string),
})
- Цитата :
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
- Примеры ( tfds.as_dataframe ):
super_glue / axg
Описание конфигурации : Winogender предназначен для измерения гендерной предвзятости в системах разрешения кореферентности. Мы используем версию Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018), в которой Виногендер рассматривается как задача текстового вывода. Каждый пример состоит из предложения-предпосылки с мужским или женским местоимением и гипотезы, дающей возможный антецедент местоимения. Примеры встречаются в минимальных парах, где единственное различие между примером и его парой - это пол местоимения в посылке. Эффективность Winogender измеряется как точностью, так и показателем гендерного паритета: процент минимальных пар, для которых прогнозы совпадают. Мы отмечаем, что система может легко получить идеальный показатель гендерного паритета, угадав один и тот же класс для всех примеров, поэтому высокий показатель гендерного паритета бессмысленен, если он не сопровождается высокой точностью. В качестве диагностического теста на гендерную предвзятость мы рассматриваем схемы как имеющие высокую положительную прогностическую ценность и низкую отрицательную прогностическую ценность; то есть они могут продемонстрировать наличие гендерной предвзятости в системе, но не доказать ее отсутствие.
Домашняя страница : https://github.com/rudinger/winogender-schemas
Размер загрузки :
10.17 KiB
Сплит :
Трещина | Примеры |
---|---|
'test' | 356 |
- Особенности :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=tf.string),
'idx': tf.int32,
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'premise': Text(shape=(), dtype=tf.string),
})
- Цитата :
@inproceedings{rudinger-EtAl:2018:N18,
author = {Rudinger, Rachel and Naradowsky, Jason and Leonard, Brian and {Van Durme}, Benjamin},
title = {Gender Bias in Coreference Resolution},
booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
month = {June},
year = {2018},
address = {New Orleans, Louisiana},
publisher = {Association for Computational Linguistics}
}
@article{wang2019superglue,
title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
journal={arXiv preprint arXiv:1905.00537},
year={2019}
}
Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.
- Примеры ( tfds.as_dataframe ):