- תיאור :
DocNLI הוא מערך נתונים בקנה מידה גדול להסקת שפה טבעית ברמת המסמך (NLI). DocNLI משתנה ממגוון רחב של בעיות NLP ומכסה ז'אנרים מרובים של טקסט. הנחות היסוד תמיד נשארות בפירוט המסמך, בעוד שההשערות משתנות באורכן ממשפטים בודדים ועד לקטעים עם מאות מילים. בניגוד לכמה מערכי נתונים NLI קיימים ברמת המשפט, ל-DocNLI יש חפצים מוגבלים למדי.
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://github.com/salesforce/DocNLI/
קוד מקור :
tfds.text.docnli.DocNLI
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
313.89 MiB
גודל מערך נתונים :
3.07 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 267,086 |
'train' | 942,314 |
'validation' | 234,258 |
- מבנה תכונה :
FeaturesDict({
'hypothesis': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=2),
'premise': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
הַשׁעָרָה | טֶקסט | חוּט | ||
תווית | ClassLabel | int64 | ||
הַנָחַת יְסוֹד | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@inproceedings{yin-etal-2021-docnli,
title={DocNLI: A Large-scale Dataset for Document-level Natural Language Inference},
author={Wenpeng Yin and Dragomir Radev and Caiming Xiong},
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
}