multi_nli

  • Description:

Le corpus Multi-Genre Natural Language Inference (MultiNLI) est une collection participative de 433 000 paires de phrases annotées avec des informations d'implication textuelle. Le corpus est calqué sur le corpus SNLI, mais diffère en ce sens qu'il couvre une gamme de genres de textes parlés et écrits, et prend en charge une évaluation distinctive de généralisation inter-genre. Le corpus a servi de base à la tâche partagée de l'atelier RepEval 2017 de l'EMNLP à Copenhague.

Diviser Exemples
'train' 392 702
'validation_matched' 9 815
'validation_mismatched' 9 832
  • Caractéristiques:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'premise': Text(shape=(), dtype=tf.string),
})
  • citation:
@InProceedings{N18-1101,
  author = "Williams, Adina
            and Nangia, Nikita
            and Bowman, Samuel",
  title = "A Broad-Coverage Challenge Corpus for
           Sentence Understanding through Inference",
  booktitle = "Proceedings of the 2018 Conference of
               the North American Chapter of the
               Association for Computational Linguistics:
               Human Language Technologies, Volume 1 (Long
               Papers)",
  year = "2018",
  publisher = "Association for Computational Linguistics",
  pages = "1112--1122",
  location = "New Orleans, Louisiana",
  url = "http://aclweb.org/anthology/N18-1101"
}