covid19sum

  • 説明

CORD-19は、COVID-19、SARS-CoV-2、および関連するコロナウイルスに関する全文を含む33,000以上を含む、45,000を超える学術論文のリソースです。

抽象的要約を通じて、COVID-19の科学文献の情報を整理するのに役立ちます。このデータセットは、これらの記事を、full_text-abstractまたはintroduction-abstractのドキュメントと要約のペアに解析します。

機能には、abstract、full_text、sha(pdfのハッシュ)、source_x(発行元)、title、doi(デジタルオブジェクト識別子)、license、authors、publish_time、journal、urlの文字列が含まれます。

  • ホームページhttps://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge

  • ソースコードtfds.summarization.Covid19sum

  • バージョン

    • 1.0.0 (デフォルト):リリースノート。
  • ダウンロードサイズUnknown size

  • データセットのサイズUnknown size

  • マニュアルダウンロード方法:このデータセットは、手動にソースデータをダウンロードする必要がありますdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ):
    手動kaggle APIを介してダウンロードするには、このデータセットの必要性: kaggle datasets download allen-institute-for-ai/CORD-19-research-challenge場所マニュアルフォルダにダウンロードしたzipファイルを。

  • オートキャッシュされたドキュメント):不明

  • スプリット

スプリット
  • 特長
FeaturesDict({
    'abstract': tf.string,
    'authors': tf.string,
    'body_text': Sequence({
        'section': tf.string,
        'text': tf.string,
    }),
    'doi': tf.string,
    'journal': tf.string,
    'license': tf.string,
    'publish_time': tf.string,
    'sha': tf.string,
    'source_x': tf.string,
    'title': tf.string,
    'url': tf.string,
})
@ONLINE {CORD-19-research-challenge,
    author = "An AI challenge with AI2, CZI, MSR, Georgetown, NIH & The White House",
    title  = "COVID-19 Open Research Dataset Challenge (CORD-19)",
    month  = "april",
    year   = "2020",
    url    = "https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge"
}