- תיאור :
מערך נתונים להרחבת קיצור רפואי המחיל החלפה הפוכה בקנה מידה אינטרנט (wsrs) על מערך הנתונים C4, שהוא גרסה ענקית ומנקה של קורפוס סריקת האינטרנט של Common Crawl.
המקור המקורי הוא מערך הנתונים Common Crawl: https://commoncrawl.org
תיאור תצורה : מערך ברירת המחדל של C4-WSRS.
דף הבית : https://github.com/google-research/google-research/tree/master/deciphering_clinical_abbreviations
קוד מקור :
tfds.text.c4_wsrs.C4WSRS
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
143.01 KiB
גודל מערך נתונים :
5.84 GiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'train' | 9,575,852 |
'validation' | 991,422 |
- מבנה תכונה :
FeaturesDict({
'abbreviated_snippet': Text(shape=(), dtype=string),
'original_snippet': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
קטע מקוצר | טֶקסט | חוּט | ||
original_snippet | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :