c4_wsrs

  • תיאור :

מערך נתונים להרחבת קיצור רפואי המחיל החלפה הפוכה בקנה מידה אינטרנט (wsrs) על מערך הנתונים C4, שהוא גרסה ענקית ומנקה של קורפוס סריקת האינטרנט של Common Crawl.

המקור המקורי הוא מערך הנתונים Common Crawl: https://commoncrawl.org

לְפַצֵל דוגמאות
'train' 9,575,852
'validation' 991,422
  • מבנה תכונה :
FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
קטע מקוצר טֶקסט חוּט
original_snippet טֶקסט חוּט
  • ציטוט :

c4_wsrs/default (תצורת ברירת מחדל)