doc_nli

  • คำอธิบาย :

DocNLI เป็นชุดข้อมูลขนาดใหญ่สำหรับการอนุมานภาษาธรรมชาติระดับเอกสาร (NLI) DocNLI เปลี่ยนจากปัญหา NLP ที่หลากหลายและครอบคลุมข้อความหลายประเภท สถานที่มักจะอยู่ในความละเอียดของเอกสาร ในขณะที่สมมติฐานมีความยาวแตกต่างกันไปตั้งแต่ประโยคเดียวไปจนถึงข้อความที่มีคำหลายร้อยคำ ตรงกันข้ามกับชุดข้อมูล NLI ระดับประโยคที่มีอยู่ DocNLI มีอาร์ติแฟกต์ค่อนข้างจำกัด

แยก ตัวอย่าง
'test' 267,086
'train' 942,314
'validation' 234,258
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'hypothesis': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'premise': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
สมมติฐาน ข้อความ สตริง
ฉลาก ป้ายกำกับคลาส int64
หลักฐาน ข้อความ สตริง
  • การอ้างอิง :
@inproceedings{yin-etal-2021-docnli,
    title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
    author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Bangkok, Thailand",
    publisher = "Association for Computational Linguistics",
}