covid19sum

  • Описание :

CORD-19 — это ресурс, содержащий более 45 000 научных статей, в том числе более 33 000 с полным текстом, о COVID-19, SARS-CoV-2 и родственных коронавирусах.

Помочь систематизировать информацию в научной литературе о COVID-19 посредством абстрактного обобщения. Этот набор данных анализирует эти статьи на пары документов и резюме: полный_текст-аннотация или введение-аннотация.

Функции включают в себя строки: аннотация, полный_текст, sha (хэш pdf), source_x (источник публикации), заголовок, doi (цифровой идентификатор объекта), лицензия, авторы, время публикации, журнал, URL-адрес.

  • Дополнительная документация : изучить документы с кодом

  • Домашняя страница : https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge

  • Исходный код : tfds.summarization.Covid19sum

  • Версии :

    • 1.0.0 (по умолчанию): нет примечаний к выпуску.
  • Размер загрузки : Unknown size

  • Размер набора данных : Unknown size

  • Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Этот набор данных необходимо загрузить вручную через kaggle api: kaggle datasets download allen-institute-for-ai/CORD-19-research-challenge Поместите загруженный zip-файл в папку руководства.

  • Автокэширование ( документация ): неизвестно

  • Сплиты :

Расколоть Примеры
  • Структура функции :
FeaturesDict({
    'abstract': string,
    'authors': string,
    'body_text': Sequence({
        'section': string,
        'text': string,
    }),
    'doi': string,
    'journal': string,
    'license': string,
    'publish_time': string,
    'sha': string,
    'source_x': string,
    'title': string,
    'url': string,
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
Аннотация Тензор нить
авторы Тензор нить
основной текст Последовательность
body_text/раздел Тензор нить
body_text/текст Тензор нить
дои Тензор нить
журнал Тензор нить
лицензия Тензор нить
время_публикации Тензор нить
ша Тензор нить
source_x Тензор нить
заглавие Тензор нить
URL Тензор нить
@ONLINE {CORD-19-research-challenge,
    author = "An AI challenge with AI2, CZI, MSR, Georgetown, NIH & The White House",
    title  = "COVID-19 Open Research Dataset Challenge (CORD-19)",
    month  = "april",
    year   = "2020",
    url    = "https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge"
}