विज्ञान_पूंछ

  • विवरण :

SciTail डेटासेट बहुविकल्पी विज्ञान परीक्षाओं और वेब वाक्यों से निर्मित एक प्रवेश डेटासेट है। परिकल्पना बनाने के लिए प्रत्येक प्रश्न और सही उत्तर विकल्प को एक मुखर कथन में परिवर्तित किया जाता है। सूचना पुनर्प्राप्ति का उपयोग वेब वाक्यों के एक बड़े टेक्स्ट कॉर्पस से प्रासंगिक पाठ प्राप्त करने के लिए किया जाता है, और इन वाक्यों को एक आधार पी के रूप में उपयोग किया जाता है। इस तरह के आधार-परिकल्पना जोड़ी का एनोटेशन क्रम में समर्थन (प्रवेश) या नहीं (तटस्थ) के रूप में क्राउडसोर्स किया जाता है। साइटेल डेटासेट बनाने के लिए। डेटासेट में 27,026 उदाहरण हैं जिनमें 10,101 उदाहरण शामिल हैं और 16,925 उदाहरण तटस्थ लेबल के साथ हैं।

विभाजित करना उदाहरण
'test' 2,126
'train' 23,097
'validation' 1,304
  • फ़ीचर संरचना :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
परिकल्पना मूलपाठ डोरी
लेबल क्लासलेबल int64
आधार मूलपाठ डोरी
  • उद्धरण :
@inproceedings{khot2018scitail,
    title={Scitail: A textual entailment dataset from science question answering},
    author={Khot, Tushar and Sabharwal, Ashish and Clark, Peter},
    booktitle={Proceedings of the 32th AAAI Conference on Artificial Intelligence (AAAI 2018)},
    url = "http://ai2-website.s3.amazonaws.com/publications/scitail-aaai-2018_cameraready.pdf",
    year={2018}
}