corr2cause

  • বর্ণনা :

Corr2cause

কার্যকারণ অনুমান মানুষের বুদ্ধিমত্তার অন্যতম বৈশিষ্ট্য।

Corr2cause হল 400K নমুনার একটি বৃহৎ মাপের ডেটাসেট, যার ভিত্তিতে সতেরটি বিদ্যমান এলএলএম সম্পর্কিত কাগজে মূল্যায়ন করা হয়েছে।

সামগ্রিকভাবে, Corr2cause 415,944টি নমুনা রয়েছে, যার মধ্যে 18.57% বৈধ নমুনা রয়েছে। প্রিমাইজের গড় দৈর্ঘ্য হল 424.11 টোকেন, এবং হাইপোথিসিস 10.83 টোকেন। তথ্য যথাক্রমে 411,452 প্রশিক্ষণ নমুনা, 2,246 উন্নয়ন এবং পরীক্ষার নমুনায় বিভক্ত করা হয়েছে। যেহেতু ডেটাসেটের মূল উদ্দেশ্য হল LLM-এর কর্মক্ষমতা বেঞ্চমার্ক করা, তাই পরীক্ষা এবং ডেভেলপমেন্ট সেটগুলিকে অগ্রাধিকার দেওয়া হয়েছে যাতে সমস্ত আকারের গ্রাফগুলির উপর একটি ব্যাপক কভারেজ থাকে৷

বিভক্ত উদাহরণ
'dev' 2,246
'test' 2,246
'train' 411,452
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'input': Text(shape=(), dtype=string),
    'label': int64,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
ইনপুট পাঠ্য স্ট্রিং
লেবেল টেনসর int64
  • উদ্ধৃতি :
@misc{jin2023large,
      title={Can Large Language Models Infer Causation from Correlation?},
      author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
      year={2023},
      eprint={2306.05836},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}