doc_nli

  • Açıklama:

DocNLI, belge düzeyinde doğal dil çıkarımı (NLI) için büyük ölçekli bir veri kümesidir. DocNLI, çok çeşitli NLP problemlerinden dönüştürülmüştür ve birden çok metin türünü kapsar. Öncüller her zaman belge ayrıntı düzeyinde kalırken, hipotezlerin uzunluğu tek cümlelerden yüzlerce kelimelik pasajlara kadar değişir. Mevcut bazı cümle düzeyinde NLI veri kümelerinin aksine, DocNLI oldukça sınırlı artefaktlara sahiptir.

Bölmek Örnekler
'test' 267.086
'train' 942,314
'validation' 234.258
  • Özellikler:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • Citation:
@inproceedings{yin-etal-2021-docnli,
    title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
    author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
}