מדע_זנב

  • תיאור :

מערך הנתונים של SciTail הוא מערך נתונים הקשורים שנוצרו מבחינות מדעיות מרובות ברירות ומשפטי אינטרנט. כל שאלה ובחירת התשובה הנכונה מומרים לאמירה אסרטיבית כדי ליצור את ההשערה. אחזור מידע משמש להשגת טקסט רלוונטי מקורפוס טקסט גדול של משפטי רשת, ומשפטים אלה משמשים כהנחת יסוד P. ההערה של צמד הנחת היסוד-השערה כזה מועברת במקור המונים כתומכים (כולל) או לא (ניטרלי), על מנת כדי ליצור את מערך הנתונים של SciTail. מערך הנתונים מכיל 27,026 דוגמאות עם 10,101 דוגמאות עם תווית כוללת ו-16,925 דוגמאות עם תווית נייטרלית.

לְפַצֵל דוגמאות
'test' 2,126
'train' 23,097
'validation' 1,304
  • מבנה תכונה :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'premise': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
הַשׁעָרָה טֶקסט tf.string
תווית ClassLabel tf.int64
הַנָחַת יְסוֹד טֶקסט tf.string
  • ציטוט :
@inproceedings{khot2018scitail,
    title={Scitail: A textual entailment dataset from science question answering},
    author={Khot, Tushar and Sabharwal, Ashish and Clark, Peter},
    booktitle={Proceedings of the 32th AAAI Conference on Artificial Intelligence (AAAI 2018)},
    url = "http://ai2-website.s3.amazonaws.com/publications/scitail-aaai-2018_cameraready.pdf",
    year={2018}
}