covid19sum

  • Deskripsi :

CORD-19 adalah sumber lebih dari 45.000 artikel ilmiah, termasuk lebih dari 33.000 dengan teks lengkap, tentang COVID-19, SARS-CoV-2, dan virus corona terkait.

Untuk membantu pengorganisasian informasi dalam literatur ilmiah COVID-19 melalui ringkasan abstraktif. Kumpulan data ini mem-parsing artikel-artikel tersebut menjadi sepasang dokumen dan ringkasan teks-lengkap-abstrak atau pengantar-abstrak.

Fitur termasuk string: abstrak, full_text, sha (hash pdf), source_x (sumber publikasi), judul, doi (pengidentifikasi objek digital), lisensi, penulis, publish_time, jurnal, url.

Membelah Contoh
  • Struktur fitur :
FeaturesDict({
    'abstract': string,
    'authors': string,
    'body_text': Sequence({
        'section': string,
        'text': string,
    }),
    'doi': string,
    'journal': string,
    'license': string,
    'publish_time': string,
    'sha': string,
    'source_x': string,
    'title': string,
    'url': string,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
abstrak Tensor rangkaian
penulis Tensor rangkaian
body_text Urutan
body_text/bagian Tensor rangkaian
body_text/teks Tensor rangkaian
doi Tensor rangkaian
jurnal Tensor rangkaian
lisensi Tensor rangkaian
publish_time Tensor rangkaian
sha Tensor rangkaian
sumber_x Tensor rangkaian
judul Tensor rangkaian
url Tensor rangkaian
@ONLINE {CORD-19-research-challenge,
    author = "An AI challenge with AI2, CZI, MSR, Georgetown, NIH & The White House",
    title  = "COVID-19 Open Research Dataset Challenge (CORD-19)",
    month  = "april",
    year   = "2020",
    url    = "https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge"
}