Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

big_patent

  • Описание:

BIGPATENT, состоящий из 1,3 миллиона записей патентных документов США вместе с рефератами, написанными людьми. Каждая заявка на патент США подается в соответствии с кодом Совместной патентной классификации (CPC). Всего существует девять таких классификационных категорий: A (человеческие потребности), B (выполнение операций; транспортировка), C ​​(химия; металлургия), D (текстиль; бумага), E (стационарные конструкции), F (машиностроение; молния; отопление; Оружие; взрыв), G (физика), H (электричество) и Y (общая маркировка новых или перекрестных технологий)

Есть две особенности: - описание: подробное описание патента. - аннотация: Патентный реферат.

  • Домашняя страница: https://evasharma.github.io/bigpatent/

  • Исходный код: tfds.summarization.BigPatent

  • Версии:

    • 1.0.0 : в нижнем регистре лексического слова
    • 2.0.0 : Обновление для использования накладных сырых строк
    • 2.1.2 ( по умолчанию): обновление Фикс для обсаженных сырья строк.
  • Скачать Размер: 9.45 GiB

  • Авто-кэшируются ( документация ): Нет

  • Особенности:

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'description': Text(shape=(), dtype=tf.string),
})
@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent / all (конфигурация по умолчанию)

  • Описание конфигурации: Патенты по всем категориям.

  • Dataset Размер: 35.17 GiB

  • расколы:

Расколоть Примеры
'test' 67 072
'train' 1 207 222
'validation' 67 068

big_patent / a

  • Описание конфигурации: Патенты в соответствии с кооперативной патентной классификации (КОП): Человеческий Necessities

  • Dataset Размер: 5.16 GiB

  • расколы:

Расколоть Примеры
'test' 9 675
'train' 174 134
'validation' 9 674

big_patent / b

  • Описание конфигурации: Патенты в соответствии с кооперативной патентной классификации (СРС) B: Выполнение операций; Транспортировка

  • Dataset Размер: 4.06 GiB

  • расколы:

Расколоть Примеры
'test' 8 974
'train' 161 520
'validation' 8 973

big_patent / c

  • Описание конфигурации: Патенты в соответствии с кооперативной патентной классификации (СРС) C: химии; Металлургия

  • Dataset Размер: 3.63 GiB

  • расколы:

Расколоть Примеры
'test' 5 614
'train' 101 042
'validation' 5 613

big_patent / d

  • Описание конфигурации: Патенты в соответствии с кооперативной патентной классификации (СРС) D: Текстиль; Бумага

  • Dataset Размер: 255.56 MiB

  • расколы:

Расколоть Примеры
'test' 565
'train' 10 164
'validation' 565

big_patent / e

  • Описание конфигурации: Патенты в соответствии с кооперативной патентной классификации (СРС) E: несъемные конструкции

  • Dataset Размер: 871.40 MiB

  • расколы:

Расколоть Примеры
'test' 1 914
'train' 34 443
'validation' 1 914

big_patent / f

  • Описание конфигурации: Патенты в соответствии с кооперативной патентной классификации (СРС) F: Машиностроение; Молния; Обогрев; Оружие; Взрывные работы

  • Dataset Размер: 2.06 GiB

  • расколы:

Расколоть Примеры
'test' 4 754
'train' 85 568
'validation' 4 754

big_patent / г

  • Описание конфигурации: Патенты в соответствии с кооперативной патентной классификации (КОП): г физики

  • Dataset Размер: 8.19 GiB

  • расколы:

Расколоть Примеры
'test' 14 386
'train' 258 935
'validation' 14 385

big_patent / ч

  • Описание конфигурации: Патенты в соответствии с кооперативной патентной классификации (КТК) ч: Электричество

  • Dataset Размер: 7.50 GiB

  • расколы:

Расколоть Примеры
'test' 14 279
'train' 257 019
'validation' 14 279

big_patent / y

  • Описание конфигурации: Патенты в рамках Совместной патентной классификации (СРС) у: Общие мечение нового или поперечного сечения технологии

  • Dataset Размер: 3.46 GiB

  • расколы:

Расколоть Примеры
'test' 6 911
'train' 124 397
'validation' 6 911