c4_wsrs

  • คำอธิบาย :

ชุดข้อมูลการขยายตัวย่อทางการแพทย์ซึ่งใช้การแทนที่แบบย้อนกลับมาตราส่วนเว็บ (wsrs) กับชุดข้อมูล C4 ซึ่งเป็นคลังข้อมูลการรวบรวมข้อมูลเว็บของ Common Crawl รุ่นใหญ่ที่สะอาด

แหล่งที่มาดั้งเดิมคือชุดข้อมูล Common Crawl: https://commoncrawl.org

แยก ตัวอย่าง
'train' 9,575,852
'validation' 991,422
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
ตัวย่อ_snippet ข้อความ สตริง
original_snippet ข้อความ สตริง
  • การอ้างอิง :

c4_wsrs/default (การกำหนดค่าเริ่มต้น)