- توضیحات :
CORD-19 منبعی از بیش از 45000 مقاله علمی ، از جمله بیش از 33،000 مقاله کامل ، درباره COVID-19 ، SARS-CoV-2 و ویروس های کرونا است.
برای کمک به سازماندهی اطلاعات در ادبیات علمی COVID-19 از طریق جمع بندی انتزاعی. این مجموعه داده این مقاله ها را به جفت سند و خلاصه ای از چکیده_ کامل یا مقدمه تجزیه می کند.
ویژگی ها شامل رشته هایی از: abstract ، full_text ، sha (هش pdf) ، source_x (منبع انتشار) ، عنوان ، doi (شناسه شی دیجیتال) ، مجوز ، نویسندگان ، زمان انتشار ، ژورنال ، آدرس اینترنتی است.
صفحه اصلی : https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge
کد منبع :
tfds.summarization.Covid19sum
نسخه ها :
-
1.0.0
(پیش فرض): بدون یادداشت انتشار.
-
اندازه بارگیری :
Unknown size
اندازه مجموعه داده :
Unknown size
دستورالعمل های بارگیری دستی : برای این مجموعه داده لازم است که داده های منبع را به صورت دستی در
download_config.manual_dir
(به طور پیش فرض~/tensorflow_datasets/downloads/manual/
):
این مجموعه داده باید به صورت دستی از طریق kaggle api بارگیری شود:kaggle datasets download allen-institute-for-ai/CORD-19-research-challenge
پرونده zip بارگیری شده را در پوشه دستی قرار دهید.ذخیره خودکار ( مستندات ): ناشناخته است
تقسیم :
شکاف | مثال ها |
---|
- ویژگی ها :
FeaturesDict({
'abstract': tf.string,
'authors': tf.string,
'body_text': Sequence({
'section': tf.string,
'text': tf.string,
}),
'doi': tf.string,
'journal': tf.string,
'license': tf.string,
'publish_time': tf.string,
'sha': tf.string,
'source_x': tf.string,
'title': tf.string,
'url': tf.string,
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):('body_text', 'abstract')
نقل قول :
@ONLINE {CORD-19-research-challenge,
author = "An AI challenge with AI2, CZI, MSR, Georgetown, NIH & The White House",
title = "COVID-19 Open Research Dataset Challenge (CORD-19)",
month = "april",
year = "2020",
url = "https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge"
}
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ): موجود نیست.