big_patent

  • 説明

BIGPATENTは、米国特許文書の130万件の記録と、人間が書いた抽象的な要約で構成されています。米国の各特許出願は、共同特許分類(CPC)コードに基づいて提出されます。そのような分類カテゴリには、A(人間の必需品)、B(操作の実行、輸送)、C(化学、冶金)、D(繊維、紙)、E(固定構造)、F(機械工学、雷、暖房)の9つがあります。武器;発破)、G(物理学)、H(電気)、およびY(新しい技術または断面技術の一般的なタグ付け)

2つの機能があります。-説明:特許の詳細な説明。 -要約:特許の要約。

  • ホームページhttps://evasharma.github.io/bigpatent/

  • ソースコードtfds.summarization.BigPatent

  • バージョン

    • 1.0.0 :同棲トークン化された単語を下げます
    • 2.0.0 :アップデートはケースに入れ、生の文字列を使用します
    • 2.1.2 (デフォルト):同棲生の文字列への修正アップデート。
  • ダウンロードサイズ9.45 GiB

  • オートキャッシュされたドキュメント):いいえ

  • 特長

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'description': Text(shape=(), dtype=tf.string),
})
@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent / all(デフォルト設定)

  • コンフィグの説明:すべてのカテゴリの下で特許。

  • データセットサイズ35.17 GiB

  • スプリット

スプリット
'test' 67,072
'train' 1,207,222
'validation' 67,068

big_patent / a

  • 設定の説明:共同特許分類(CPC)の下で特許:ヒト必需

  • データセットサイズ5.16 GiB

  • スプリット

スプリット
'test' 9,675
'train' 174,134
'validation' 9,674

big_patent / b

  • 設定の説明:共同特許分類(CPC)B下特許:操作を実行するステップと輸送

  • データセットサイズ4.06 GiB

  • スプリット

スプリット
'test' 8,974
'train' 161,520
'validation' 8,973

big_patent / c

  • 設定の説明:C共同特許分類(CPC)の下で特許:化学。冶金

  • データセットサイズ3.63 GiB

  • スプリット

スプリット
'test' 5,614
'train' 101,042
'validation' 5,613

big_patent / d

  • 設定の説明:共同特許分類(CPC)D下特許:テキスタイル。論文

  • データセットのサイズ255.56 MiB

  • スプリット

スプリット
'test' 565
'train' 10,164
'validation' 565

big_patent / e

  • コンフィグの説明:固定構築:共同特許分類(CPC)Eの下で特許

  • データセットのサイズ871.40 MiB

  • スプリット

スプリット
'test' 1,914
'train' 34,443
'validation' 1,914

big_patent / f

  • 設定の説明:F共同特許分類(CPC)の下で特許:機械工学。ライトニング;暖房;兵器;発破

  • データセットサイズ2.06 GiB

  • スプリット

スプリット
'test' 4,754
'train' 85,568
'validation' 4,754

big_patent / g

  • 設定の説明:物理学:共同特許分類(CPC)G下特許

  • データセットサイズ8.19 GiB

  • スプリット

スプリット
'test' 14,386
'train' 258,935
'validation' 14,385

big_patent / h

  • 設定の説明:共同特許分類(CPC)H下特許:電気

  • データセットサイズ7.50 GiB

  • スプリット

スプリット
'test' 14,279
'train' 257,019
'validation' 14,279

big_patent / y

  • 設定の説明:共同特許分類(CPC)Y下特許:新規または断技術の一般的なタグ付け

  • データセットサイズ3.46 GiB

  • スプリット

スプリット
'test' 6,911
'train' 124,397
'validation' 6,911