c4_wsrs

  • الوصف :

مجموعة بيانات توسيع الاختصارات الطبية التي تطبق الاستبدال العكسي لمقياس الويب (WSRS) على مجموعة بيانات C4 ، وهي نسخة ضخمة ومُنظَّفة من مجموعة زحف الويب الخاصة بـ Common Crawl.

المصدر الأصلي هو مجموعة بيانات الزحف الشائعة: https://commoncrawl.org

انشق، مزق أمثلة
'train' 9،575،852
'validation' 991422
  • هيكل الميزة :
FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
abbreviated_snippet نص سلسلة
original_snippet نص سلسلة
  • الاقتباس :

c4_wsrs / افتراضي (التكوين الافتراضي)