multi_nli

  • Descriptif :

Le corpus Multi-Genre Natural Language Inference (MultiNLI) est une collection de 433 000 paires de phrases annotées avec des informations d'implication textuelle. Le corpus est calqué sur le corpus SNLI, mais diffère en ce qu'il couvre une gamme de genres de textes parlés et écrits, et prend en charge une évaluation de généralisation inter-genres distincte. Le corpus a servi de base à la tâche partagée de l'atelier RepEval 2017 à l'EMNLP à Copenhague.

Diviser Exemples
'train' 392 702
'validation_matched' 9 815
'validation_mismatched' 9 832
  • Structure des fonctionnalités :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'premise': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
hypothèse Texte chaîne de caractères
étiquette Étiquette de classe int64
prémisse Texte chaîne de caractères
  • Citation :
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}