c4_wsrs

  • Mô tả :

Tập dữ liệu mở rộng từ viết tắt y tế áp dụng thay thế ngược quy mô web (wsrs) cho tập dữ liệu C4, đây là phiên bản khổng lồ, được làm sạch của kho dữ liệu thu thập dữ liệu web của Common Crawl.

Nguồn ban đầu là bộ dữ liệu Common Crawl: https://commoncrawl.org

Tách ra ví dụ
'train' 9.575.852
'validation' 991,422
  • Cấu trúc tính năng :
FeaturesDict({
    'abbreviated_snippet': Text(shape=(), dtype=string),
    'original_snippet': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
viết tắt_snippet Chữ chuỗi
original_snippet Chữ chuỗi
  • trích dẫn :

c4_wsrs/default (cấu hình mặc định)