- Описание :
Корпус Multi-Genre Natural Language Inference (MultiNLI) представляет собой краудсорсинговую коллекцию из 433 тыс. Пар предложений, аннотированных текстовой информацией. Корпус смоделирован на основе корпуса SNLI, но отличается тем, что охватывает ряд жанров устного и письменного текста и поддерживает отличительную оценку межжанрового обобщения. Корпус послужил основой для совместной задачи семинара RepEval 2017 в EMNLP в Копенгагене.
Домашняя страница : https://www.nyu.edu/projects/bowman/multinli/
Исходный код :
tfds.text.MultiNLIMismatch
Версии :
-
0.1.0
(по умолчанию): без примечаний к выпуску.
-
Размер загрузки :
216.34 MiB
Размер набора данных :
90.91 MiB
Автоматическое кэширование ( документация ): Да
Сплит :
Трещина | Примеры |
---|---|
'train' | 392 702 |
'validation' | 10 000 |
- Особенности :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=tf.string),
'label': Text(shape=(), dtype=tf.string),
'premise': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см.
as_supervised
doc ):None
Цитата :
@InProceedings{N18-1101,
author = "Williams, Adina
and Nangia, Nikita
and Bowman, Samuel",
title = "A Broad-Coverage Challenge Corpus for
Sentence Understanding through Inference",
booktitle = "Proceedings of the 2018 Conference of
the North American Chapter of the
Association for Computational Linguistics:
Human Language Technologies, Volume 1 (Long
Papers)",
year = "2018",
publisher = "Association for Computational Linguistics",
pages = "1112--1122",
location = "New Orleans, Louisiana",
url = "http://aclweb.org/anthology/N18-1101"
}
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):