corr2cause

  • תיאור :

Corr2cause

הסקה סיבתית היא אחד מסימני ההיכר של האינטליגנציה האנושית.

Corr2cause הוא מערך נתונים בקנה מידה גדול של יותר מ-400,000 דגימות, שעליהן מוערכים שבעה עשר תוכניות LLM קיימות במאמר הקשור.

בסך הכל, Corr2cause מכיל 415,944 דגימות, עם 18.57% בדגימות תקפות. האורך הממוצע של הנחת היסוד הוא 424.11 אסימונים, והשערה 10.83 אסימונים. הנתונים מחולקים ל-411,452 דגימות הכשרה, 2,246 דגימות פיתוח ומבחן, בהתאמה. מכיוון שהמטרה העיקרית של מערך הנתונים היא להשוות את הביצועים של LLMs, ערכות הבדיקה והפיתוח קיבלו עדיפות לכיסוי מקיף על כל הגדלים של גרפים.

לְפַצֵל דוגמאות
'dev' 2,246
'test' 2,246
'train' 411,452
  • מבנה תכונה :
FeaturesDict({
    'input': Text(shape=(), dtype=string),
    'label': int64,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
קֶלֶט טֶקסט חוּט
תווית מוֹתֵחַ int64
  • ציטוט :
@misc{jin2023large,
      title={Can Large Language Models Infer Causation from Correlation?},
      author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
      year={2023},
      eprint={2306.05836},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}