doc_nli

  • תיאור:

DocNLI הוא מערך נתונים רחב היקף להסקת שפות טבעיות ברמת מסמך (NLI). DocNLI הופך ממגוון רחב של בעיות NLP ומכסה סוגים רבים של טקסט. ההנחות תמיד נשארות בפירוט המסמכים, בעוד שההשערות משתנות באורכן ממשפטים בודדים לקטעים עם מאות מילים. בניגוד לכמה מערכי נתונים קיימים של רמת NLI, ל- DocNLI יש חפצים די מוגבלים.

לְפַצֵל דוגמאות
'test' 267,086
'train' 942,314
'validation' 234,258
  • מאפיינים:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • ציטוט:
@inproceedings{yin-etal-2021-docnli,
    title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
    author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
}