एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

doc_nli

  • विवरण:

DocNLI दस्तावेज़-स्तरीय प्राकृतिक भाषा अनुमान (NLI) के लिए एक बड़े पैमाने पर डेटासेट है। DocNLI को NLP समस्याओं की एक विस्तृत श्रृंखला से रूपांतरित किया गया है और इसमें पाठ की कई शैलियों को शामिल किया गया है। परिसर हमेशा दस्तावेज़ ग्रैन्युलैरिटी में रहता है, जबकि परिकल्पना एक वाक्य से लेकर सैकड़ों शब्दों के अंशों तक की लंबाई में भिन्न होती है। कुछ मौजूदा वाक्य-स्तरीय NLI डेटासेट के विपरीत, DocNLI में बहुत सीमित कलाकृतियाँ हैं।

विभाजित करना उदाहरण
'test' २६७,०८६
'train' ९४२,३१४
'validation' २३४,२५८
  • विशेषताएं:
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@inproceedings{yin-etal-2021-docnli,
    title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
    author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
}