- תיאור :
Corr2cause
הסקה סיבתית היא אחד מסימני ההיכר של האינטליגנציה האנושית.
Corr2cause הוא מערך נתונים בקנה מידה גדול של יותר מ-400,000 דגימות, שעליהן מוערכים שבעה עשר תוכניות LLM קיימות במאמר הקשור.
בסך הכל, Corr2cause מכיל 415,944 דגימות, עם 18.57% בדגימות תקפות. האורך הממוצע של הנחת היסוד הוא 424.11 אסימונים, והשערה 10.83 אסימונים. הנתונים מחולקים ל-411,452 דגימות הכשרה, 2,246 דגימות פיתוח ומבחן, בהתאמה. מכיוון שהמטרה העיקרית של מערך הנתונים היא להשוות את הביצועים של LLMs, ערכות הבדיקה והפיתוח קיבלו עדיפות לכיסוי מקיף על כל הגדלים של גרפים.
קוד מקור :
tfds.datasets.corr2cause.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
727.22 MiB
גודל ערכת נתונים :
739.91 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'dev' | 2,246 |
'test' | 2,246 |
'train' | 411,452 |
- מבנה תכונה :
FeaturesDict({
'input': Text(shape=(), dtype=string),
'label': int64,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
קֶלֶט | טֶקסט | חוּט | ||
תווית | מוֹתֵחַ | int64 |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@misc{jin2023large,
title={Can Large Language Models Infer Causation from Correlation?},
author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
year={2023},
eprint={2306.05836},
archivePrefix={arXiv},
primaryClass={cs.CL}
}