c4_wsrs

  • توضیحات :

یک مجموعه داده گسترش اختصار پزشکی که جایگزینی معکوس در مقیاس وب (wsrs) را برای مجموعه داده C4 اعمال می کند، که یک نسخه عظیم و پاک شده از پیکره خزیدن وب Common Crawl است.

منبع اصلی مجموعه داده Common Crawl است: https://commoncrawl.org

شکاف مثال ها
'train' 9,575,852
'validation' 991,422
  • ساختار ویژگی :
FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
abbreviated_snippet متن رشته
قطعه_اصلی متن رشته
  • نقل قول :

c4_wsrs/default (پیکربندی پیش فرض)