- תיאור:
DocNLI הוא מערך נתונים רחב היקף להסקת שפות טבעיות ברמת מסמך (NLI). DocNLI הופך ממגוון רחב של בעיות NLP ומכסה סוגים רבים של טקסט. ההנחות תמיד נשארות בפירוט המסמכים, בעוד שההשערות משתנות באורכן ממשפטים בודדים לקטעים עם מאות מילים. בניגוד לכמה מערכי נתונים קיימים של רמת NLI, ל- DocNLI יש חפצים די מוגבלים.
קוד מקור:
tfds.text.docnli.DocNLI
גרסאות:
-
1.0.0
(ברירת המחדל): מהדורה ראשונית.
-
גודל ההורדה:
313.89 MiB
גודל בסיס הנתונים:
3.07 GiB
Auto-במטמון ( תיעוד ): אין
פיצולים:
לְפַצֵל | דוגמאות |
---|---|
'test' | 267,086 |
'train' | 942,314 |
'validation' | 234,258 |
- מאפיינים:
FeaturesDict({
'hypothesis': Text(shape=(), dtype=tf.string),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
'premise': Text(shape=(), dtype=tf.string),
})
מפתחות השגחה (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט:
@inproceedings{yin-etal-2021-docnli,
title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
}