Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

супер клей

  • Описание:

Суперклей ( https://super.gluebenchmark.com/ ) является новым эталоном в стиле после КЛЕЯ с новым набором более сложных языковым пониманием задач, улучшением ресурсов, а также новыми общественными лидерами.

super_glue / boolq (конфигурация по умолчанию)

  • Config Описание: BoolQ (. Булевы Вопросы, Clark и др 2019a) является задачей обеспечения качества , где каждый пример состоит из короткого прохода и да / нет вопроса о проходе. Вопросы задаются анонимно и без запроса пользователями поисковой системы Google, а затем соединяются с абзацем из статьи в Википедии, содержащим ответ. Следуя оригинальной работе, оцениваем с точностью.

  • Домашняя страница: https://github.com/google-research-datasets/boolean-questions

  • Скачать Размер: 3.93 MiB

  • расколы:

Расколоть Примеры
'test' 3 245
'train' 9 427
'validation' 3 270
  • Особенности:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'passage': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Образец цитирования:
@inproceedings{clark2019boolq,
  title={BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions},
  author={Clark, Christopher and Lee, Kenton and Chang, Ming-Wei, and Kwiatkowski, Tom and Collins, Michael, and Toutanova, Kristina},
  booktitle={NAACL},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / cb

  • Конфигурация Описание: (. Де Марнефа и др, 2019) CommitmentBank представляет собой свод коротких текстов , в которых по меньшей мере , одно предложение содержит встроенный пункт. Каждый из этих встроенных пунктов снабжен аннотациями, указывающими на степень, в которой мы ожидаем, что лицо, написавшее текст, будет придерживаться истинности пункта. Результирующая задача оформлена как трехклассное текстовое следствие на примерах, взятых из Wall Street Journal, художественной литературы из Британского национального корпуса и Switchboard. Каждый пример состоит из предпосылки, содержащей вложенное предложение, а соответствующая гипотеза - это извлечение этого предложения. Мы используем подмножество данных, у которых было согласование между аннотаторами выше 0,85. Данные несбалансированы (относительно меньше нейтральных примеров), поэтому мы оцениваем, используя точность и F1, где для мультиклассового F1 мы вычисляем невзвешенное среднее значение F1 для каждого класса.

  • Домашняя страница: https://github.com/mcdm/CommitmentBank

  • Скачать Размер: 73.71 KiB

  • расколы:

Расколоть Примеры
'test' 250
'train' 250
'validation' 56
  • Особенности:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Образец цитирования:
@article{de marneff_simons_tonhauser_2019,
  title={The CommitmentBank: Investigating projection in naturally occurring discourse},
  journal={proceedings of Sinn und Bedeutung 23},
  author={De Marneff, Marie-Catherine and Simons, Mandy and Tonhauser, Judith},
  year={2019}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / copa

  • Config Описание: Выбор правдоподобных Альтернативы (COPA., Roemmele и др, 2011) набор данных является причинной аргументацией задачей , в которой система получает предпосылку предложение и два возможных варианта. Система должна выбрать альтернативу, которая имеет более правдоподобную причинную связь с предпосылкой. Метод, используемый для построения альтернатив, гарантирует, что задача требует причинного обоснования для решения. Примеры либо имеют дело с альтернативными возможными причинами, либо с альтернативными возможными последствиями предложения посылки, сопровождаемые простым вопросом, устраняющим неоднозначность между двумя типами экземпляров для модели. Все примеры созданы вручную и посвящены темам из онлайн-блогов и энциклопедии, связанной с фотографией. Следуя рекомендации авторов, мы оцениваем точность.

  • Домашняя страница: http://people.ict.usc.edu/~gordon/copa.html

  • Скачать Размер: 42.96 KiB

  • расколы:

Расколоть Примеры
'test' 500
'train' 400
'validation' 100
  • Особенности:
FeaturesDict({
    'choice1': Text(shape=(), dtype=tf.string),
    'choice2': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Образец цитирования:
@inproceedings{roemmele2011choice,
  title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning},
  author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S},
  booktitle={2011 AAAI Spring Symposium Series},
  year={2011}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / multirc

  • Конфигурация Описание: Multi-Предложение Понимание при чтении набора данных (. MultiRC, Khashabi и др, 2018) является истина / ложь вопрос-ответа на задачу. Каждый пример состоит из контекстного абзаца, вопроса об этом абзаце и списка возможных ответов на этот вопрос, которые должны быть помечены как истинные или ложные. Ответы на вопросы (QA) - популярная проблема со многими наборами данных. Мы используем MultiRC из-за ряда желательных свойств: (i) каждый вопрос может иметь несколько возможных правильных ответов, поэтому каждая пара вопрос-ответ должна оцениваться независимо от других пар, (ii) вопросы разработаны таким образом, что для ответа на каждый вопрос требуется извлечение фактов из нескольких контекстных предложений и (iii) формат пары вопрос-ответ более точно соответствует API других задач SuperGLUE, чем это делает экстрактивный QA на основе диапазона. Абзацы взяты из семи областей, включая новости, художественную литературу и исторический текст.

  • Домашняя страница: https://cogcomp.org/multirc/

  • Скачать Размер: 1.06 MiB

  • расколы:

Расколоть Примеры
'test' 9 693
'train' 27 243
'validation' 4848
  • Особенности:
FeaturesDict({
    'answer': Text(shape=(), dtype=tf.string),
    'idx': FeaturesDict({
        'answer': tf.int32,
        'paragraph': tf.int32,
        'question': tf.int32,
    }),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'paragraph': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
})
  • Образец цитирования:
@inproceedings{MultiRC2018,
    author = {Daniel Khashabi and Snigdha Chaturvedi and Michael Roth and Shyam Upadhyay and Dan Roth},
    title = {Looking Beyond the Surface:A Challenge Set for Reading Comprehension over Multiple Sentences},
    booktitle = {Proceedings of North American Chapter of the Association for Computational Linguistics (NAACL)},
    year = {2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / запись

  • Config Описание: (. Чтение Понимание с Commonsense Рассуждения Dataset, Zhang и др, 2018) является задачей QA множественного выбора. Каждый пример состоит из новостной статьи и вопроса в стиле Cloze о статье, в которой замаскирована одна сущность. Система должна предсказать замаскированный объект из заданного списка возможных объектов в предоставленном отрывке, где один и тот же объект может быть выражен с использованием нескольких различных поверхностных форм, все из которых считаются правильными. Статьи взяты из CNN и Daily Mail. Следуя исходной работе, мы оцениваем с максимальным (по всем упоминаниям) уровнем токена F1 и точным соответствием (EM).

  • Домашняя страница: https://sheng-z.github.io/ReCoRD-explorer/

  • Скачать Размер: 49.36 MiB

  • расколы:

Расколоть Примеры
'test' 10 000
'train' 100 730
'validation' 10 000
  • Особенности:
FeaturesDict({
    'answers': Sequence(Text(shape=(), dtype=tf.string)),
    'entities': Sequence(Text(shape=(), dtype=tf.string)),
    'idx': FeaturesDict({
        'passage': tf.int32,
        'query': tf.int32,
    }),
    'passage': Text(shape=(), dtype=tf.string),
    'query': Text(shape=(), dtype=tf.string),
})
  • Образец цитирования:
@article{zhang2018record,
  title={Record: Bridging the gap between human and machine commonsense reading comprehension},
  author={Zhang, Sheng and Liu, Xiaodong and Liu, Jingjing and Gao, Jianfeng and Duh, Kevin and Van Durme, Benjamin},
  journal={arXiv preprint arXiv:1810.12885},
  year={2018}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / rte

  • Config Описание: признающая Текстология Воплощение (RTE) наборы данные поступают из серии ежегодных соревнований по текстовому следованию, проблема прогнозирования ли данное помещение приговора влечет за собой данную гипотезу предложение (также известное как умозаключения естественного языка, NLI). RTE ранее был включен в GLUE, и мы используем те же данные и формат, что и раньше: мы объединяем данные из RTE1 (Dagan et al., 2006), RTE2 (Bar Haim et al., 2006), RTE3 (Giampiccolo et al., 2007) и RTE5 (Bentivogli et al., 2009). Все наборы данных объединяются и преобразуются в двухклассовую классификацию: entailment и not_entailment. Из всех задач GLUE RTE была одной из тех, которые больше всего выиграли от трансферного обучения, перескочив с почти случайной производительности (~ 56%) на момент запуска GLUE до точности 85% (Liu et al., 2019c) на момент запуска. время написания. Однако, учитывая разрыв в восемь пунктов по показателям производительности человека, эта задача еще не решена машинами, и мы ожидаем, что остающийся разрыв будет трудно преодолеть.

  • Домашняя страница: https://aclweb.org/aclwiki/Recognizing_Textual_Entailment

  • Скачать Размер: 733.32 KiB

  • расколы:

Расколоть Примеры
'test' 3 000
'train' 2,490
'validation' 277
  • Особенности:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Образец цитирования:
@inproceedings{dagan2005pascal,
  title={The PASCAL recognising textual entailment challenge},
  author={Dagan, Ido and Glickman, Oren and Magnini, Bernardo},
  booktitle={Machine Learning Challenges Workshop},
  pages={177--190},
  year={2005},
  organization={Springer}
}
@inproceedings{bar2006second,
  title={The second pascal recognising textual entailment challenge},
  author={Bar-Haim, Roy and Dagan, Ido and Dolan, Bill and Ferro, Lisa and Giampiccolo, Danilo and Magnini, Bernardo and Szpektor, Idan},
  booktitle={Proceedings of the second PASCAL challenges workshop on recognising textual entailment},
  volume={6},
  number={1},
  pages={6--4},
  year={2006},
  organization={Venice}
}
@inproceedings{giampiccolo2007third,
  title={The third pascal recognizing textual entailment challenge},
  author={Giampiccolo, Danilo and Magnini, Bernardo and Dagan, Ido and Dolan, Bill},
  booktitle={Proceedings of the ACL-PASCAL workshop on textual entailment and paraphrasing},
  pages={1--9},
  year={2007},
  organization={Association for Computational Linguistics}
}
@inproceedings{bentivogli2009fifth,
  title={The Fifth PASCAL Recognizing Textual Entailment Challenge.},
  author={Bentivogli, Luisa and Clark, Peter and Dagan, Ido and Giampiccolo, Danilo},
  booktitle={TAC},
  year={2009}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wic

  • Описание Config: Слово-в-контекста (WiC, Pilehvar и Камий Колладос, 2019) набор данных поддерживает смысл слова неоднозначности задача брошена как бинарная классификация по парам предложения. Учитывая два предложения и многозначное (неоднозначное по значению) слово, которое встречается в обоих предложениях, задача состоит в том, чтобы определить, используется ли слово в одном и том же смысле в обоих предложениях. Предложения взяты из WordNet (Miller, 1995), VerbNet (Schuler, 2005) и Wiktionary. Мы следим за оригинальной работой и оцениваем точность.

  • Домашняя страница: https://pilehvar.github.io/wic/

  • Скачать Размер: 386.93 KiB

  • расколы:

Расколоть Примеры
'test' 1,400
'train' 5 428
'validation' 638
  • Особенности:
FeaturesDict({
    'end1': tf.int32,
    'end2': tf.int32,
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
    'start1': tf.int32,
    'start2': tf.int32,
    'word': Text(shape=(), dtype=tf.string),
})
  • Образец цитирования:
@article{DBLP:journals/corr/abs-1808-09121,
  author={Mohammad Taher Pilehvar and os{'{e} } Camacho{-}Collados},
  title={WiC: 10, 000 Example Pairs for Evaluating Context-Sensitive Representations},
  journal={CoRR},
  volume={abs/1808.09121},
  year={2018},
  url={http://arxiv.org/abs/1808.09121},
  archivePrefix={arXiv},
  eprint={1808.09121},
  timestamp={Mon, 03 Sep 2018 13:36:40 +0200},
  biburl={https://dblp.org/rec/bib/journals/corr/abs-1808-09121},
  bibsource={dblp computer science bibliography, https://dblp.org}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc

  • Config Описание: Виноград Schema Challenge (. WSC, Левек и др 2012) является понимание прочитаннога задачей , в которых система должна прочитать предложение с местоимением и выберите референт местоимения из списка выбора. Учитывая сложность этой задачи и все еще оставшийся запас, мы включили WSC в SuperGLUE и переделали набор данных в форму кореференции. Задача представлена ​​как проблема бинарной классификации, в отличие от N-множественного выбора, чтобы изолировать способность модели понимать ссылки кореферентности в предложении, в отличие от различных других стратегий, которые могут вступать в игру в условиях множественного выбора. Имея это в виду, мы создаем разделение с 65% отрицательного класса большинства в наборе проверки, отражающим распределение скрытого набора тестов, и 52% отрицательного класса в наборе обучения. Примеры обучения и проверки взяты из исходного набора данных Winograd Schema (Levesque et al., 2012), а также распространяются дочерней организацией Commonsense Reasoning. Примеры тестов взяты из художественной литературы и предоставлены нам авторами исходного набора данных. Ранее версия WSC преобразовывалась как NLI, включенная в GLUE, известная как WNLI. По WNLI не было достигнуто никакого существенного прогресса, при этом многие заявки предпочитали представлять только прогнозы большинства классов. WNLI был особенно затруднен из-за враждебного разделения на обучение и разработку: предложения-предпосылки, которые появлялись в обучающем наборе, иногда появлялись в наборе для разработки с другой гипотезой и перевернутой меткой. Если система запоминала обучающую выборку без значимого обобщения, что было легко из-за небольшого размера обучающей выборки, она могла бы работать намного ниже вероятности на развивающей выборке. Мы устраняем этот состязательный дизайн в версии WSC для SuperGLUE, гарантируя, что никакие предложения не будут разделены между наборами для обучения, проверки и тестирования.

Однако наборы проверки и тестирования происходят из разных доменов, причем набор проверки состоит из неоднозначных примеров, так что изменение одного слова, не являющегося существительным, изменит зависимости кореферентности в предложении. Набор тестов состоит только из более простых примеров, с большим количеством словосочетаний с существительными (и, следовательно, с большим выбором модели), но с низким уровнем двусмысленности или без нее.

Расколоть Примеры
'test' 146
'train' 554
'validation' 104
  • Особенности:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • Образец цитирования:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / wsc.fixed

  • Config Описание: Виноград Schema Challenge (. WSC, Левек и др 2012) является понимание прочитаннога задачей , в которых система должна прочитать предложение с местоимением и выберите референт местоимения из списка выбора. Учитывая сложность этой задачи и все еще оставшийся запас, мы включили WSC в SuperGLUE и переделали набор данных в форму кореференции. Задача представлена ​​как проблема бинарной классификации, в отличие от N-множественного выбора, чтобы изолировать способность модели понимать ссылки кореферентности в предложении, в отличие от различных других стратегий, которые могут вступать в игру в условиях множественного выбора. Имея это в виду, мы создаем разделение с 65% отрицательного класса большинства в наборе проверки, отражающим распределение скрытого набора тестов, и 52% отрицательного класса в наборе обучения. Примеры обучения и проверки взяты из исходного набора данных Winograd Schema (Levesque et al., 2012), а также распространяются дочерней организацией Commonsense Reasoning. Примеры тестов взяты из художественной литературы и предоставлены нам авторами исходного набора данных. Ранее версия WSC преобразовывалась как NLI, включенная в GLUE, известная как WNLI. По WNLI не было достигнуто никакого существенного прогресса, при этом многие заявки предпочитали представлять только прогнозы большинства классов. WNLI был особенно затруднен из-за враждебного разделения на обучение и разработку: предложения-предпосылки, которые появлялись в обучающем наборе, иногда появлялись в наборе для разработки с другой гипотезой и перевернутой меткой. Если система запоминала обучающую выборку без значимого обобщения, что было легко из-за небольшого размера обучающей выборки, она могла бы работать намного ниже вероятности на развивающей выборке. Мы устраняем этот состязательный дизайн в версии WSC SuperGLUE, гарантируя, что никакие предложения не будут разделены между наборами для обучения, проверки и тестирования.

Однако наборы проверки и тестирования происходят из разных доменов, причем набор проверки состоит из неоднозначных примеров, так что изменение одного слова, не являющегося существительным, изменит зависимости кореферентности в предложении. Набор тестов состоит только из более простых примеров, с большим количеством словосочетаний с существительными (и, следовательно, с большим выбором модели), но с низким уровнем двусмысленности или без нее.

В этой версии исправлены проблемы, когда промежутки на самом деле не являются подстроками текста.

Расколоть Примеры
'test' 146
'train' 554
'validation' 104
  • Особенности:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'span1_index': tf.int32,
    'span1_text': Text(shape=(), dtype=tf.string),
    'span2_index': tf.int32,
    'span2_text': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
})
  • Образец цитирования:
@inproceedings{levesque2012winograd,
  title={The winograd schema challenge},
  author={Levesque, Hector and Davis, Ernest and Morgenstern, Leora},
  booktitle={Thirteenth International Conference on the Principles of Knowledge Representation and Reasoning},
  year={2012}
}
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / axb

  • Описание конфигурации: Эксперт возведенных, диагностический набор данных , который автоматически проверяет модели для широкого круга лингвистических, здравой и познания мира. Каждый пример в этой диагностике с широким охватом представляет собой пару предложений, помеченных трехсторонним отношением следствия (следствие, нейтраль или противоречие) и помеченных ярлыками, которые указывают на явления, которые характеризуют отношения между двумя предложениями. Отправленные в таблицу лидеров GLUE должны включать прогнозы из классификатора MultiNLI отправки в набор диагностических данных, а анализ результатов был показан рядом с основной таблицей лидеров. Поскольку эта задача диагностики с широким охватом оказалась сложной для топовых моделей, мы сохраняем ее в SuperGLUE. Однако, поскольку MultiNLI не является частью SuperGLUE, мы сворачиваем противоречивые и нейтральные данные в одну метку not_entailment и запрашиваем, чтобы представленные материалы включали прогнозы по результирующему набору из модели, используемой для задачи RTE.

  • Домашняя страница: https://gluebenchmark.com/diagnostics

  • Скачать Размер: 33.15 KiB

  • расколы:

Расколоть Примеры
'test' 1 104
  • Особенности:
FeaturesDict({
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'sentence1': Text(shape=(), dtype=tf.string),
    'sentence2': Text(shape=(), dtype=tf.string),
})
  • Образец цитирования:
@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.

super_glue / axg

  • Config Описание: Winogender предназначен для измерения гендерной предвзятости в системах разрешения кореферентности. Мы используем версию Diverse Natural Language Inference Collection (DNC; Poliak et al., 2018), в которой Виногендер рассматривается как задача текстового вывода. Каждый пример состоит из предложения-предпосылки с мужским или женским местоимением и гипотезы, дающей возможный антецедент местоимения. Примеры встречаются в минимальных парах, где единственное различие между примером и его парой - это пол местоимения в посылке. Эффективность Winogender измеряется как по точности, так и по показателю гендерного паритета: процент минимальных пар, для которых прогнозы совпадают. Мы отмечаем, что система может тривиально получить идеальный показатель гендерного паритета, угадав один и тот же класс для всех примеров, поэтому высокий показатель гендерного паритета бессмысленен, если он не сопровождается высокой точностью. В качестве диагностического теста гендерной предвзятости мы рассматриваем схемы как имеющие высокую положительную прогностическую ценность и низкую отрицательную прогностическую ценность; то есть они могут продемонстрировать наличие гендерной предвзятости в системе, но не доказать ее отсутствие.

  • Домашняя страница: https://github.com/rudinger/winogender-schemas

  • Скачать Размер: 10.17 KiB

  • расколы:

Расколоть Примеры
'test' 356
  • Особенности:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'idx': tf.int32,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Образец цитирования:
@inproceedings{rudinger-EtAl:2018:N18,
  author    = {Rudinger, Rachel  and  Naradowsky, Jason  and  Leonard, Brian  and  {Van Durme}, Benjamin},
  title     = {Gender Bias in Coreference Resolution},
  booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies},
  month     = {June},
  year      = {2018},
  address   = {New Orleans, Louisiana},
  publisher = {Association for Computational Linguistics}
}

@article{wang2019superglue,
  title={SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems},
  author={Wang, Alex and Pruksachatkun, Yada and Nangia, Nikita and Singh, Amanpreet and Michael, Julian and Hill, Felix and Levy, Omer and Bowman, Samuel R},
  journal={arXiv preprint arXiv:1905.00537},
  year={2019}
}

Note that each SuperGLUE dataset has its own citation. Please see the source to
get the correct citation for each contained dataset.