doc_nli

  • Description:

DocNLI est un ensemble de données à grande échelle pour l'inférence de langage naturel au niveau du document (NLI). DocNLI est transformé à partir d'un large éventail de problèmes de PNL et couvre plusieurs genres de texte. Les prémisses restent toujours dans la granularité du document, alors que les hypothèses varient en longueur, des phrases simples aux passages avec des centaines de mots. Contrairement à certains ensembles de données NLI au niveau de la phrase, DocNLI a des artefacts assez limités.

Diviser Exemples
'test' 267 086
'train' 942 314
'validation' 234 258
  • Caractéristiques:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • citation:
@inproceedings{yin-etal-2021-docnli,
    title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
    author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
}