corr2cause

Deskripsi :

Penyebab yang benar

Inferensi kausal adalah salah satu ciri kecerdasan manusia.

Corr2cause adalah kumpulan data berskala besar yang terdiri dari lebih dari 400 ribu sampel, di mana tujuh belas LLM yang ada dievaluasi dalam makalah terkait.

Secara keseluruhan, Corr2cause berisi 415.944 sampel, dengan 18,57% sampel valid. Rata-rata panjang premis adalah 424,11 token, dan hipotesis 10,83 token. Data tersebut dibagi menjadi 411,452 sampel pelatihan, 2,246 sampel pengembangan, dan pengujian. Karena tujuan utama kumpulan data adalah untuk mengukur kinerja LLM, kumpulan pengujian dan pengembangan diprioritaskan untuk memiliki cakupan komprehensif pada semua ukuran grafik.

Beranda : https://github.com/causalNLP/corr2cause/tree/main
Kode sumber : tfds.datasets.corr2cause.Builder
Versi :
- 1.0.0 (default): Rilis awal.
Ukuran unduhan : 727.22 MiB
Ukuran kumpulan data : 739.91 MiB
Cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'dev'`	2.246
`'test'`	2.246
`'train'`	411.452

Struktur fitur :

FeaturesDict({
    'input': Text(shape=(), dtype=string),
    'label': int64,
})

Dokumentasi fitur :

Fitur	Kelas	Tipe D
	FiturDict
memasukkan	Teks	rangkaian
label	Tensor	int64

Kunci yang diawasi (Lihat dokumen as_supervised ): None
Gambar ( tfds.show_examples ): Tidak didukung.
Contoh ( tfds.as_dataframe ):

Kutipan :

@misc{jin2023large,
      title={Can Large Language Models Infer Causation from Correlation?},
      author={Zhijing Jin and Jiarui Liu and Zhiheng Lyu and Spencer Poff and Mrinmaya Sachan and Rada Mihalcea and Mona Diab and Bernhard Schölkopf},
      year={2023},
      eprint={2306.05836},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

corr2cause Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Penyebab yang benar

corr2cause