doc_nli

  • Descriptif :

DocNLI est un ensemble de données à grande échelle pour l'inférence du langage naturel (NLI) au niveau du document. DocNLI est transformé à partir d'un large éventail de problèmes de PNL et couvre plusieurs genres de texte. Les prémisses restent toujours dans la granularité du document, tandis que les hypothèses varient en longueur, allant de phrases simples à des passages de centaines de mots. Contrairement à certains ensembles de données NLI existants au niveau de la phrase, DocNLI a des artefacts assez limités.

Diviser Exemples
'test' 267 086
'train' 942 314
'validation' 234 258
  • Structure des fonctionnalités :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
hypothèse Texte chaîne de caractères
étiquette Étiquette de classe int64
prémisse Texte chaîne de caractères
  • Citation :
@inproceedings{yin-etal-2021-docnli,
    title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
    author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
}