Эта страница была переведа с помощью Cloud Translation API.
Switch to English

супер клей

  • Исходный код : tfds.text.SuperGlue

  • Версии :

    • 1.0.2 (по умолчанию): без примечаний к выпуску.
  • Размер набора данных : Unknown size

  • Автоматическое кэширование ( документация ): неизвестно

  • Контролируемые ключи (см. as_supervised ): None

  • Рисунок ( tfds.show_examples ): не поддерживается.

super_glue / boolq (конфигурация по умолчанию)

  • Описание :

SuperGLUE ( https://super.gluebenchmark.com/ ) - это новый тест, созданный после GLUE с новым набором более сложных задач для понимания языка, улучшенными ресурсами и новой общедоступной таблицей лидеров.

BoolQ (Boolean Questions, Clark et al., 2019a) - это задача контроля качества, в которой каждый пример состоит из короткого отрывка и вопроса с да / нет относительно отрывка. Вопросы задаются анонимно и без запроса пользователями поисковой системы Google, а затем в сочетании с абзацем из статьи в Википедии, содержащим ответ. Следуя оригинальной работе, оцениваем с точностью.

  • Описание конфигурации : BoolQ (Boolean Questions, Clark et al., 2019a) - это задача контроля качества, в которой каждый пример состоит из короткого отрывка и вопроса с да / нет о переходе. Вопросы задаются анонимно и без запроса пользователями поисковой системы Google, а затем в сочетании с абзацем из статьи в Википедии, содержащим ответ. Следуя оригинальной работе, оцениваем с точностью.

  • Домашняя страница : https://github.com/google-research-datasets/boolean-questions

  • Размер загрузки : 3.93 MiB

  • Сплит :

Трещина Примеры
'test' 3 245
'train' 9 427
'validation' 3 270
  • Особенности :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'passage': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Цитата :
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / cb

  • Описание :

SuperGLUE ( https://super.gluebenchmark.com/ ) - это новый тест, созданный после GLUE с новым набором более сложных задач понимания языка, улучшенными ресурсами и новой общедоступной таблицей лидеров.

CommitmentBank (De Marneffe et al., 2019) - это корпус коротких текстов, в которых по крайней мере одно предложение содержит встроенное предложение. Каждый из этих встроенных пунктов снабжен аннотациями, указывающими на степень, в которой мы ожидаем, что человек, написавший текст, придерживается истинности пункта. Полученная в результате задача оформлена как трехклассное текстовое следствие на примерах, взятых из Wall Street Journal, художественной литературы из Британского национального корпуса и Switchboard. Каждый пример состоит из предпосылки, содержащей вложенное предложение, а соответствующая гипотеза - это извлечение этого предложения. Мы используем подмножество данных, для которых согласованность аннотаторов была выше 0,85. Данные несбалансированы (относительно меньше нейтральных примеров), поэтому мы оцениваем, используя точность и F1, где для мультиклассового F1 мы вычисляем невзвешенное среднее значение F1 для каждого класса.

  • Описание конфигурации : CommitmentBank (De Marneffe et al., 2019) - это корпус коротких текстов, в которых хотя бы одно предложение содержит встроенное предложение. Каждый из этих встроенных пунктов снабжен аннотациями, указывающими на степень, в которой мы ожидаем, что человек, написавший текст, привержен истинности пункта. Получившаяся задача оформлена как трехклассное текстовое следствие на примерах, взятых из Wall Street Journal, художественной литературы из British National Corpus и Switchboard. Каждый пример состоит из предпосылки, содержащей вложенное предложение, и соответствующая гипотеза является извлечением этого предложения. Мы используем подмножество данных, для которых согласованность аннотаторов была выше 0,85. Данные несбалансированы (относительно меньше нейтральных примеров), поэтому мы оцениваем, используя точность и F1, где для мультиклассового F1 мы вычисляем невзвешенное среднее значение F1 для каждого класса.

  • Домашняя страница : https://github.com/mcdm/CommitmentBank

  • Размер загрузки : 73.71 KiB

  • Сплит :

Трещина Примеры
'test' 250
'train' 250
'validation' 56
  • Особенности :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Цитата :
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / copa

  • Описание :

SuperGLUE ( https://super.gluebenchmark.com/ ) - это новый тест, созданный после GLUE с новым набором более сложных задач понимания языка, улучшенными ресурсами и новой общедоступной таблицей лидеров.

Набор данных «Выбор правдоподобных альтернатив» (COPA, Roemmele et al., 2011) - это задача причинного рассуждения, в которой системе дается исходное предложение и две возможные альтернативы. Система должна выбрать альтернативу, которая имеет более правдоподобную причинную связь с предпосылкой. Метод, используемый для построения альтернатив, гарантирует, что задача требует причинного обоснования для решения. В примерах рассматриваются либо альтернативные возможные причины, либо альтернативные возможные последствия предложения посылки, сопровождаемые простым вопросом, устраняющим неоднозначность между двумя типами экземпляров для модели. Все примеры созданы вручную и посвящены темам из онлайн-блогов и энциклопедии, связанной с фотографией. Следуя рекомендации авторов, мы оцениваем точность.

  • Описание конфигурации : набор данных «Выбор правдоподобных альтернатив» (COPA, Roemmele et al., 2011) - это задача причинного рассуждения, в которой системе дается исходное предложение и две возможные альтернативы. Система должна выбрать альтернативу, которая имеет более правдоподобную причинно-следственную связь с предпосылкой. Метод, используемый для построения альтернатив, гарантирует, что задача требует причинного обоснования для решения. В примерах рассматриваются либо альтернативные возможные причины, либо альтернативные возможные последствия предложения посылки, сопровождаемые простым вопросом, устраняющим неоднозначность между двумя типами экземпляров для модели. Все примеры созданы вручную и посвящены темам из онлайн-блогов и энциклопедии, связанной с фотографией. Следуя рекомендации авторов, мы оцениваем точность.

  • Домашняя страница : http://people.ict.usc.edu/~gordon/copa.html

  • Размер загрузки : 42.96 KiB

  • Сплит :

Трещина Примеры
'test' 500
'train' 400
'validation' 100
  • Особенности :
FeaturesDict({
    'choice1': Text(shape=(), dtype=tf.string),
    'choice2': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Цитата :
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / multirc

  • Описание :

SuperGLUE ( https://super.gluebenchmark.com/ ) - это новый тест, созданный после GLUE с новым набором более сложных задач понимания языка, улучшенными ресурсами и новой общедоступной таблицей лидеров.

Набор данных Multi-Sentence Reading Computing (MultiRC, Khashabi et al., 2018) представляет собой задачу с ответами на вопросы с истинным / ложным ответом. Каждый пример состоит из контекстного абзаца, вопроса об этом абзаце и списка возможных ответов на этот вопрос, которые должны быть помечены как истинные или ложные. Ответы на вопросы (QA) - популярная проблема со многими наборами данных. Мы используем MultiRC из-за ряда желательных свойств: (i) каждый вопрос может иметь несколько возможных правильных ответов, поэтому каждая пара вопрос-ответ должна оцениваться независимо от других пар, (ii) вопросы разработаны таким образом, что для ответа на каждый вопрос требуется извлечение фактов из нескольких контекстных предложений и (iii) формат пары вопрос-ответ более точно соответствует API других задач SuperGLUE, чем это делает экстрактивное QA на основе диапазона. Абзацы взяты из семи областей, включая новости, художественную литературу и исторический текст.

  • Описание конфигурации : набор данных Multi-Sentence Reading Computing (MultiRC, Khashabi et al., 2018) - это задача с ответами на вопросы "правда / ложь". Каждый пример состоит из контекстного абзаца, вопроса об этом абзаце и списка возможных ответов на этот вопрос, которые должны быть помечены как истинные или ложные. Ответы на вопросы (QA) - популярная проблема со многими наборами данных. Мы используем MultiRC из-за ряда желаемых свойств: (i) каждый вопрос может иметь несколько возможных правильных ответов, поэтому каждая пара вопрос-ответ должна оцениваться независимо от других пар, (ii) вопросы разработаны таким образом, что для ответа на каждый вопрос требуется извлечение фактов из нескольких контекстных предложений и (iii) формат пары вопрос-ответ более точно соответствует API других задач SuperGLUE, чем это делает экстрактивное QA на основе диапазона. Абзацы взяты из семи областей, включая новости, художественную литературу и исторический текст.

  • Домашняя страница : https://cogcomp.org/multirc/

  • Размер загрузки : 1.06 MiB

  • Сплит :

Трещина Примеры
'test' 9 693
'train' 27 243
'validation' 4 848
  • Особенности :
FeaturesDict({
    'answer': Text(shape=(), dtype=tf.string),
    'idx': FeaturesDict({
        'answer': tf.int32,
        'paragraph': tf.int32,
        'question': tf.int32,
    }),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Цитата :
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / запись

  • Описание :

SuperGLUE ( https://super.gluebenchmark.com/ ) - это новый тест, созданный после GLUE с новым набором более сложных задач понимания языка, улучшенными ресурсами и новой общедоступной таблицей лидеров.

(Чтение понимания с помощью набора данных здравого смысла, Чжан и др., 2018) - это задача QA с множественным выбором. Каждый пример состоит из новостной статьи и вопроса в стиле Cloze о статье, в которой замаскирована одна сущность. Система должна предсказать замаскированный объект из заданного списка возможных объектов в предоставленном отрывке, где один и тот же объект может быть выражен с использованием нескольких различных поверхностных форм, все из которых считаются правильными. Статьи взяты из CNN и Daily Mail. Следуя исходной работе, мы оцениваем с максимальным (по всем упоминаниям) уровнем токена F1 и точным соответствием (EM).

  • Описание конфигурации : (Reading Computing with Commonsense Reasoning Dataset, Zhang et al., 2018) - это задача QA с множественным выбором. Каждый пример состоит из новостной статьи и вопроса в стиле Cloze о статье, в которой замаскирована одна сущность. Система должна предсказать замаскированный объект из заданного списка возможных объектов в предоставленном отрывке, где один и тот же объект может быть выражен с использованием нескольких различных поверхностных форм, все из которых считаются правильными. Статьи взяты из CNN и Daily Mail. Следуя исходной работе, мы оцениваем с максимальным (по всем упоминаниям) уровнем токена F1 и точным соответствием (EM).

  • Домашняя страница : https://sheng-z.github.io/ReCoRD-explorer/

  • Размер загрузки : 49.36 MiB

  • Сплит :

Трещина Примеры
'test' 10 000
'train' 100 730
'validation' 10 000
  • Особенности :
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=tf.string)),
    'entities': Sequence(Text(shape=(), dtype=tf.string)),
    'idx': FeaturesDict({
        'passage': tf.int32,
        'query': tf.int32,
    }),
    'passage': Text(shape=(), dtype=tf.string),
    'query': Text(shape=(), dtype=tf.string),
})
  • Цитата :
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / rte

  • Описание :

SuperGLUE ( https://super.gluebenchmark.com/ ) - это новый тест, созданный после GLUE с новым набором более сложных задач понимания языка, улучшенными ресурсами и новой общедоступной таблицей лидеров.

Наборы данных «Распознавание текстового следования» (RTE) происходят из серии ежегодных соревнований по текстовому следствию - проблеме предсказания того, влечет ли данное предложение-посылка заданное предложение-гипотезу (также известное как вывод естественного языка, NLI). RTE ранее был включен в GLUE, и мы используем те же данные и формат, что и раньше: мы объединяем данные из RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) и RTE5 (Bentivogli et al., 2009). Все наборы данных объединяются и преобразуются в двухклассовую классификацию: entailment и not_entailment. Из всех задач GLUE RTE была одной из тех, которые больше всего выиграли от трансферного обучения, перескочив с почти случайной производительности (~ 56%) на момент запуска GLUE до точности 85% (Liu et al., 2019c) в время написания. Однако, учитывая разрыв в восемь баллов по производительности человека, задача еще не решена машинами, и мы ожидаем, что остающийся разрыв будет трудно преодолеть.

  • Описание конфигурации : Наборы данных «Распознавание текстового следования» (RTE) происходят из серии ежегодных соревнований по текстовому следствию - проблеме предсказания того, влечет ли данное предложение-предпосылка заданное предложение-гипотезу (также известное как вывод естественного языка, NLI). RTE ранее был включен в GLUE, и мы используем те же данные и формат, что и раньше: мы объединяем данные из RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) и RTE5 (Bentivogli et al., 2009). Все наборы данных объединяются и преобразуются в двухклассовую классификацию: entailment и not_entailment. Из всех задач GLUE, RTE была среди тех, которые больше всего выиграли от трансферного обучения, перескочив с почти случайной производительности (~ 56%) на момент запуска GLUE до точности 85% (Liu et al., 2019c) в время написания. Однако, учитывая разрыв в восемь пунктов в отношении производительности человека, задача еще не решена машинами, и мы ожидаем, что остающийся разрыв будет трудно преодолеть.

  • Домашняя страница : https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Размер загрузки : 733.32 KiB

  • Сплит :

Трещина Примеры
'test' 3 000
'train' 2,490
'validation' 277
  • Особенности :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Цитата :
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wic

  • Описание :

SuperGLUE ( https://super.gluebenchmark.com/ ) - это новый тест, созданный после GLUE с новым набором более сложных задач понимания языка, улучшенными ресурсами и новой общедоступной таблицей лидеров.

Набор данных Word-in-Context (WiC, Pilehvar and Camacho-Collados, 2019) поддерживает задачу устранения неоднозначности словесного смысла в виде двоичной классификации по парам предложений. Учитывая два предложения и многозначное (неоднозначное по значению) слово, которое встречается в обоих предложениях, задача состоит в том, чтобы определить, используется ли слово в одном и том же смысле в обоих предложениях. Предложения взяты из WordNet (Miller, 1995), VerbNet (Schuler, 2005) и Wiktionary. Мы следим за оригинальной работой и оцениваем точность.

  • Описание конфигурации : набор данных Word-in-Context (WiC, Pilehvar and Camacho-Collados, 2019) поддерживает задачу устранения неоднозначности смысла слов, выраженную в виде двоичной классификации по парам предложений. Учитывая два предложения и многозначное (неоднозначное по значению) слово, которое встречается в обоих предложениях, задача состоит в том, чтобы определить, используется ли слово в одном и том же смысле в обоих предложениях. Предложения взяты из WordNet (Miller, 1995), VerbNet (Schuler, 2005) и Wiktionary. Мы следим за оригинальной работой и оцениваем точность.

  • Домашняя страница : https://pilehvar.github.io/wic/

  • Размер загрузки : 386.93 KiB

  • Сплит :

Трещина Примеры
'test' 1,400
'train' 5 428
'validation' 638
  • Особенности :
FeaturesDict({
    'end1': tf.int32,
    'end2': tf.int32,
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
    'start1': tf.int32,
    'start2': tf.int32,
    'word': Text(shape=(), dtype=tf.string),
})
  • Цитата :
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc

  • Описание :

SuperGLUE ( https://super.gluebenchmark.com/ ) - это новый тест, созданный после GLUE с новым набором более сложных задач для понимания языка, улучшенными ресурсами и новой общедоступной таблицей лидеров.

Программа Winograd Schema Challenge (WSC, Levesque et al., 2012) - это задача понимания прочитанного, в которой система должна прочитать предложение с местоимением и выбрать референт этого местоимения из списка возможных вариантов. Учитывая сложность этой задачи и все еще оставшийся запас, мы включили WSC в SuperGLUE и переделали набор данных в форму сопоставления. Задача представлена ​​как проблема бинарной классификации, в отличие от N-множественного выбора, чтобы изолировать способность модели понимать ссылки кореферентности в предложении, в отличие от различных других стратегий, которые могут вступать в игру в условиях множественного выбора. Имея это в виду, мы создаем разделение с 65% отрицательного класса большинства в наборе проверки, отражающим распределение скрытого набора тестов, и 52% отрицательного класса в наборе обучения. Примеры обучения и проверки взяты из исходного набора данных Winograd Schema (Levesque et al., 2012), а также распространяются дочерней организацией Commonsense Reasoning. Примеры тестов взяты из художественной литературы и предоставлены нам авторами исходного набора данных. Ранее версия WSC преобразовывалась как NLI, включенная в GLUE, известная как WNLI. По WNLI не было достигнуто существенного прогресса, многие заявки предпочитали представлять только прогнозы большинства классов. WNLI был особенно затруднен из-за враждебного разделения на обучение и разработку: предложения, которые появлялись в обучающем наборе, иногда появлялись в наборе для разработки с другой гипотезой и перевернутой меткой. Если система запоминала обучающую выборку без значимого обобщения, что было легко из-за небольшого размера обучающей выборки, она могла бы работать намного ниже вероятности на развивающей выборке. Мы устраняем этот состязательный дизайн в версии WSC SuperGLUE, гарантируя, что никакие предложения не будут разделены между наборами для обучения, проверки и тестирования.

Однако наборы для проверки и тестирования происходят из разных доменов, причем набор для проверки состоит из неоднозначных примеров, так что изменение одного слова, не являющегося существительным, изменит зависимости кореферентности в предложении. Набор тестов состоит только из более простых примеров, с большим количеством словосочетаний с существительными (и, следовательно, с большим выбором модели), но с низким уровнем двусмысленности или без нее.

  • Описание конфигурации : Winograd Schema Challenge (WSC, Levesque et al., 2012) - это задача понимания прочитанного, в которой система должна прочитать предложение с местоимением и выбрать референт этого местоимения из списка вариантов. Учитывая сложность этой задачи и все еще оставшийся запас, мы включили WSC в SuperGLUE и переделали набор данных в форму кореференции. Задача представлена ​​как проблема бинарной классификации, в отличие от N-множественного выбора, чтобы изолировать способность модели понимать ссылки кореферентности в предложении, в отличие от различных других стратегий, которые могут вступать в игру в условиях множественного выбора. Имея это в виду, мы создаем разделение с 65% отрицательного класса большинства в наборе проверки, отражающим распределение скрытого набора тестов, и 52% отрицательного класса в наборе обучения. Примеры обучения и проверки взяты из исходного набора данных Winograd Schema (Levesque et al., 2012), а также распространяются дочерней организацией Commonsense Reasoning. Примеры тестов взяты из художественной литературы и предоставлены нам авторами исходного набора данных. Ранее версия WSC преобразовывалась как NLI, включенная в GLUE, известная как WNLI. По WNLI не было достигнуто существенного прогресса, многие заявки предпочитали представлять только прогнозы большинства классов. WNLI был особенно затруднен из-за враждебного разделения на обучение и разработку: предложения, которые появлялись в обучающем наборе, иногда появлялись в наборе для разработки с другой гипотезой и перевернутой меткой. Если система запоминала обучающую выборку без значимого обобщения, что было легко из-за небольшого размера обучающей выборки, она могла бы работать намного ниже вероятности на развивающей выборке. Мы устраняем этот состязательный дизайн в версии WSC SuperGLUE, гарантируя, что никакие предложения не будут разделены между наборами для обучения, проверки и тестирования.

Однако наборы для проверки и тестирования происходят из разных доменов, причем набор для проверки состоит из неоднозначных примеров, так что изменение одного слова, не являющегося существительным, изменит зависимости кореферентности в предложении. Набор тестов состоит только из более простых примеров, с большим количеством словосочетаний с существительными (и, следовательно, с большим выбором модели), но с низким уровнем двусмысленности или без нее.

Трещина Примеры
'test' 146
'train' 554
'validation' 104
  • Особенности :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • Цитата :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc.fixed

  • Описание :

SuperGLUE ( https://super.gluebenchmark.com/ ) - это новый тест, созданный после GLUE с новым набором более сложных задач понимания языка, улучшенными ресурсами и новой общедоступной таблицей лидеров.

Программа Winograd Schema Challenge (WSC, Levesque et al., 2012) - это задача понимания прочитанного, в которой система должна прочитать предложение с местоимением и выбрать референт этого местоимения из списка возможных вариантов. Учитывая сложность этой задачи и все еще оставшийся запас, мы включили WSC в SuperGLUE и переделали набор данных в форму сопоставления. Задача представлена ​​как проблема бинарной классификации, в отличие от N-множественного выбора, чтобы изолировать способность модели понимать ссылки кореферентности в предложении, в отличие от различных других стратегий, которые могут вступать в игру в условиях множественного выбора. Имея это в виду, мы создаем разделение с 65% отрицательного класса большинства в наборе проверки, отражающим распределение скрытого набора тестов, и 52% отрицательного класса в наборе обучения. Примеры обучения и проверки взяты из исходного набора данных Winograd Schema (Levesque et al., 2012), а также распространяются дочерней организацией Commonsense Reasoning. Примеры тестов взяты из художественной литературы и предоставлены нам авторами исходного набора данных. Ранее версия WSC преобразовывалась как NLI, включенная в GLUE, известная как WNLI. По WNLI не было достигнуто существенного прогресса, многие заявки предпочитали представлять только прогнозы большинства классов. WNLI был особенно затруднен из-за враждебного разделения на обучение и разработку: предложения-предпосылки, которые появлялись в обучающем наборе, иногда появлялись в наборе разработки с другой гипотезой и перевернутой меткой. Если система запоминала обучающую выборку без значимого обобщения, что было легко из-за небольшого размера обучающей выборки, она могла бы работать намного ниже вероятности на развивающей выборке. Мы устраняем этот состязательный дизайн в версии WSC SuperGLUE, гарантируя, что никакие предложения не будут разделены между наборами для обучения, проверки и тестирования.

Однако наборы для проверки и тестирования происходят из разных доменов, причем набор для проверки состоит из неоднозначных примеров, так что изменение одного слова, не являющегося существительным, изменит зависимости кореферентности в предложении. Набор тестов состоит только из более простых примеров, с большим количеством словосочетаний с существительными (и, следовательно, с большим выбором модели), но с низким уровнем двусмысленности или без нее.

В этой версии исправлены проблемы, когда промежутки на самом деле не являются подстроками текста.

  • Описание конфигурации : Winograd Schema Challenge (WSC, Levesque et al., 2012) - это задача понимания прочитанного, в которой система должна прочитать предложение с местоимением и выбрать референт этого местоимения из списка вариантов. Учитывая сложность этой задачи и все еще оставшийся запас, мы включили WSC в SuperGLUE и переделали набор данных в форму кореференции. Задача представлена ​​как проблема бинарной классификации, в отличие от N-множественного выбора, чтобы изолировать способность модели понимать ссылки кореферентности в предложении, в отличие от различных других стратегий, которые могут вступать в игру в условиях множественного выбора. Имея это в виду, мы создаем разделение с 65% отрицательного класса большинства в наборе проверки, отражающим распределение скрытого набора тестов, и 52% отрицательного класса в наборе обучения. Примеры обучения и проверки взяты из исходного набора данных Winograd Schema (Levesque et al., 2012), а также распространяются дочерней организацией Commonsense Reasoning. Примеры тестов взяты из художественной литературы и предоставлены нам авторами исходного набора данных. Ранее версия WSC преобразовывалась как NLI, включенная в GLUE, известная как WNLI. По WNLI не было достигнуто существенного прогресса, многие заявки предпочитали представлять только прогнозы большинства классов. WNLI был особенно затруднен из-за враждебного разделения на обучение и разработку: предложения-предпосылки, которые появлялись в обучающем наборе, иногда появлялись в наборе для разработки с другой гипотезой и перевернутой меткой. Если система запоминала обучающую выборку без значимого обобщения, что было легко из-за небольшого размера обучающей выборки, она могла бы работать намного ниже вероятности на развивающей выборке. Мы устраняем этот состязательный дизайн в версии WSC SuperGLUE, гарантируя, что никакие предложения не будут разделены между наборами для обучения, проверки и тестирования.

Однако наборы для проверки и тестирования происходят из разных доменов, причем набор для проверки состоит из неоднозначных примеров, так что изменение одного слова, не являющегося существительным, изменит зависимости кореферентности в предложении. Набор тестов состоит только из более простых примеров с большим количеством словосочетаний с существительными (и, следовательно, с большим количеством вариантов для модели), но с низким уровнем двусмысленности или без нее.

В этой версии исправлены проблемы, когда промежутки на самом деле не являются подстроками текста.

Трещина Примеры
'test' 146
'train' 554
'validation' 104
  • Особенности :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • Цитата :
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / axb

  • Описание :

SuperGLUE ( https://super.gluebenchmark.com/ ) - это новый тест, созданный после GLUE с новым набором более сложных задач для понимания языка, улучшенными ресурсами и новой общедоступной таблицей лидеров.

Созданный экспертами диагностический набор данных, который автоматически проверяет модели на предмет широкого спектра лингвистических, здравых и мировых знаний. Каждый пример в этой диагностике с широким охватом представляет собой пару предложений, помеченных трехсторонним отношением следствия (следствие, нейтральность или противоречие) и помеченных ярлыками, которые указывают на явления, которые характеризуют отношения между двумя предложениями. Отправленные в таблицу лидеров GLUE должны включать прогнозы из классификатора MultiNLI отправки в набор диагностических данных, а анализ результатов был показан рядом с основной таблицей лидеров. Поскольку эта задача диагностики с широким охватом оказалась сложной для топовых моделей, мы сохраняем ее в SuperGLUE. Однако, поскольку MultiNLI не является частью SuperGLUE, мы сворачиваем противоречивые и нейтральные данные в одну метку not_entailment и запрашиваем, чтобы представления включали прогнозы для результирующего набора из модели, используемой для задачи RTE.

  • Описание конфигурации : диагностический набор данных, созданный экспертами, который автоматически проверяет модели на предмет широкого спектра лингвистических, здравых и мировых знаний. Каждый пример в этой диагностике с широким охватом представляет собой пару предложений, помеченных трехсторонним отношением следствия (следствие, нейтральность или противоречие) и помеченных ярлыками, которые указывают на явления, которые характеризуют отношения между двумя предложениями. Материалы для таблицы лидеров GLUE должны включать прогнозы из классификатора MultiNLI в наборе диагностических данных, а анализ результатов был показан рядом с основной таблицей лидеров. Поскольку эта задача диагностики с широким охватом оказалась сложной для топовых моделей, мы сохраняем ее в SuperGLUE. Однако, поскольку MultiNLI не является частью SuperGLUE, мы сворачиваем противоречивые и нейтральные данные в одну метку not_entailment и запрашиваем, чтобы представленные материалы включали прогнозы для результирующего набора из модели, используемой для задачи RTE.

  • Домашняя страница : https://gluebenchmark.com/diagnostics

  • Размер загрузки : 33.15 KiB

  • Сплит :

Трещина Примеры
'test' 1 104
  • Особенности :
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Цитата :
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / axg

  • Описание :

SuperGLUE ( https://super.gluebenchmark.com/ ) - это новый тест, созданный после GLUE с новым набором более сложных задач для понимания языка, улучшенными ресурсами и новой общедоступной таблицей лидеров.

Winogender предназначен для измерения гендерной предвзятости в системах разрешения кореферентности. Мы используем версию Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018), в которой Виногендер рассматривается как задача текстового вывода. Каждый пример состоит из предложения-предпосылки с мужским или женским местоимением и гипотезы, дающей возможный антецедент местоимения. Примеры встречаются в минимальных парах, где единственное различие между примером и его парой - это пол местоимения в посылке. Эффективность Winogender измеряется как точностью, так и оценкой гендерного паритета: процент минимальных пар, для которых прогнозы совпадают. Мы отмечаем, что система может легко получить идеальный показатель гендерного паритета, угадав один и тот же класс для всех примеров, поэтому высокий показатель гендерного паритета бессмысленен, если он не сопровождается высокой точностью. В качестве диагностического теста гендерной предвзятости мы рассматриваем схемы как имеющие высокую положительную прогностическую ценность и низкую отрицательную прогностическую ценность; то есть они могут продемонстрировать наличие гендерной предвзятости в системе, но не доказать ее отсутствие.

  • Описание конфигурации : Winogender предназначен для измерения гендерной предвзятости в системах разрешения кореферентности. Мы используем версию Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018), в которой Виногендер рассматривается как задача текстового вывода. Каждый пример состоит из предложения-предпосылки с мужским или женским местоимением и гипотезы, дающей возможный антецедент местоимения. Примеры встречаются в минимальных парах, где единственное различие между примером и его парой - это пол местоимения в посылке. Эффективность Winogender измеряется как точностью, так и оценкой гендерного паритета: процент минимальных пар, для которых прогнозы совпадают. Мы отмечаем, что система может легко получить идеальный показатель гендерного паритета, угадав один и тот же класс для всех примеров, поэтому высокий показатель гендерного паритета бессмысленен, если он не сопровождается высокой точностью. В качестве диагностического теста гендерной предвзятости мы рассматриваем схемы как имеющие высокую положительную прогностическую ценность и низкую отрицательную прогностическую ценность; то есть они могут продемонстрировать наличие гендерной предвзятости в системе, но не доказать ее отсутствие.

  • Домашняя страница : https://github.com/rudinger/winogender-schemas

  • Размер загрузки : 10.17 KiB

  • Сплит :

Трещина Примеры
'test' 356
  • Особенности :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Цитата :
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.