- תיאור :
מערך הנתונים של SciTail הוא מערך נתונים הקשורים שנוצרו מבחינות מדעיות מרובות ברירות ומשפטי אינטרנט. כל שאלה ובחירת התשובה הנכונה מומרים לאמירה אסרטיבית כדי ליצור את ההשערה. אחזור מידע משמש להשגת טקסט רלוונטי מקורפוס טקסט גדול של משפטי רשת, ומשפטים אלה משמשים כהנחת יסוד P. ההערה של צמד הנחת היסוד-השערה כזה מועברת במקור המונים כתמיכות (כולל) או לא (ניטרליות), על מנת כדי ליצור את מערך הנתונים של SciTail. מערך הנתונים מכיל 27,026 דוגמאות עם 10,101 דוגמאות עם תווית כוללת ו-16,925 דוגמאות עם תווית נייטרלית.
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://allenai.org/data/scitail
קוד מקור :
tfds.datasets.sci_tail.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
13.52 MiB
גודל מערך נתונים :
6.01 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 2,126 |
'train' | 23,097 |
'validation' | 1,304 |
- מבנה תכונה :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
הַשׁעָרָה | טֶקסט | חוּט | ||
תווית | ClassLabel | int64 | ||
הַנָחַת יְסוֹד | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@inproceedings{khot2018scitail,
title={Scitail: A textual entailment dataset from science question answering},
author={Khot, Tushar and Sabharwal, Ashish and Clark, Peter},
booktitle={Proceedings of the 32th AAAI Conference on Artificial Intelligence (AAAI 2018)},
url = "http://ai2-website.s3.amazonaws.com/publications/scitail-aaai-2018_cameraready.pdf",
year={2018}
}