большой_патент

  • Описание :

BIGPATENT, состоящий из 1,3 миллиона записей патентных документов США, а также реферативных резюме, написанных человеком. Каждая заявка на патент США подается под кодом Совместной патентной классификации (CPC). Таких классификационных категорий девять:

  • А (человеческие потребности),
  • B (выполнение операций; транспортировка),
  • С (Химия; Металлургия),
  • D (Текстиль; Бумага),
  • E (стационарные конструкции),
  • F (Машиностроение, Молния, Отопление, Оружие, Взрыв),
  • Г (физика),
  • H (Электричество) и
  • Y (общая маркировка новой или кросс-секционной технологии)

Есть две особенности:

  • описание: подробное описание патента.
  • резюме: Автореферат патента.

  • Дополнительная документация : изучить документы с кодом

  • Домашняя страница : https://evasharma.github.io/bigpatent/

  • Исходный код : tfds.datasets.big_patent.Builder

  • Версии :

    • 1.0.0 : токенизированные слова в нижнем регистре
    • 2.0.0 : Обновление для использования необработанных строк с регистром
    • 2.1.2 (по умолчанию): исправлено обновление необработанных строк с регистром.
  • Размер загрузки : 9.45 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Структура функции :

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'description': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Сорт Форма Dтип Описание
ОсобенностиDict
абстрактный Текст нить
описание Текст нить
  • Контролируемые ключи (см. as_supervised doc ): ('description', 'abstract')

  • Рисунок ( tfds.show_examples ): не поддерживается.

  • Цитата :

@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (конфигурация по умолчанию)

  • Описание конфигурации : Патенты по всем категориям.

  • Размер набора данных : 35.17 GiB

  • Сплиты :

Расколоть Примеры
'test' 67 072
'train' 1 207 222
'validation' 67 068

большой_патент/а

  • Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)a: Человеческие потребности

  • Размер набора данных : 5.16 GiB

  • Сплиты :

Расколоть Примеры
'test' 9675
'train' 174 134
'validation' 9674

большой_патент/б

  • Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)b: Выполнение операций; Транспортировка

  • Размер набора данных : 4.06 GiB

  • Сплиты :

Расколоть Примеры
'test' 8974
'train' 161 520
'validation' 8973

big_patent/c

  • Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)c: Химия; Металлургия

  • Размер набора данных : 3.63 GiB

  • Сплиты :

Расколоть Примеры
'test' 5614
'train' 101 042
'validation' 5613

big_patent/d

  • Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)d: Текстиль; Бумага

  • Размер набора данных : 255.56 MiB

  • Сплиты :

Расколоть Примеры
'test' 565
'train' 10 164
'validation' 565

big_patent/е

  • Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)e: Фиксированные конструкции

  • Размер набора данных : 871.40 MiB

  • Сплиты :

Расколоть Примеры
'test' 1914
'train' 34 443
'validation' 1914

big_patent/f

  • Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)f: Машиностроение; Молния; Обогрев; Оружие; взрывные работы

  • Размер набора данных : 2.06 GiB

  • Сплиты :

Расколоть Примеры
'test' 4754
'train' 85 568
'validation' 4754

большой_патент/г

  • Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)g: Физика

  • Размер набора данных : 8.19 GiB

  • Сплиты :

Расколоть Примеры
'test' 14 386
'train' 258 935
'validation' 14 385

big_patent/ч

  • Описание конфигурации : Патенты в соответствии с совместной патентной классификацией (CPC)h: Электричество

  • Размер набора данных : 7.50 GiB

  • Сплиты :

Расколоть Примеры
'test' 14 279
'train' 257 019
'validation' 14 279

big_patent/г

  • Описание конфигурации : Патенты в соответствии с Совместной патентной классификацией (CPC)y: Общая маркировка новой или перекрестной технологии

  • Размер набора данных : 3.46 GiB

  • Сплиты :

Расколоть Примеры
'test' 6911
'train' 124 397
'validation' 6911