big_patent

  • Açıklama :

BIGPATENT, insan tarafından yazılmış soyut özetlerle birlikte 1,3 milyon ABD patent belgesi kaydından oluşur. Her ABD patent başvurusu, bir Kooperatif Patent Sınıflandırması (CPC) kodu altında dosyalanır. Bu tür dokuz sınıflandırma kategorisi vardır: A (İnsan İhtiyaçları), B (İşlemleri Gerçekleştirme; Taşıma), C (Kimya; Metalurji), D (Tekstil; Kağıt), E (Sabit Yapılar), F (Makine Mühendisliği; Yıldırım; Isıtma; Silahlar; Patlatma), G (Fizik), H (Elektrik) ve Y (Yeni veya kesit teknolojisinin genel etiketlemesi)

İki özellik vardır: - açıklama: patentin ayrıntılı açıklaması. - özet: Patent özeti.

  • Ana sayfa : https://evasharma.github.io/bigpatent/

  • Kaynak kodu : tfds.summarization.BigPatent

  • Sürümler :

    • 1.0.0 : küçük harfli tokenize kelimeler
    • 2.0.0 : Büyük/küçük harfli ham dizeleri kullanmak için güncelleme
    • 2.1.2 (varsayılan): Büyük harfli ham dizelerdeki güncellemeyi düzeltin.
  • İndirme boyutu : 9.45 GiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Özellik yapısı :

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'description': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
Öz Metin tf.string
tanım Metin tf.string
@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Tüm kategoriler altındaki patentler.

  • Veri kümesi boyutu : 35.17 GiB

  • Bölmeler :

Bölmek Örnekler
'test' 67.072
'train' 1.207.222
'validation' 67.068

big_patent/a

  • Yapılandırma açıklaması : Kooperatif Patent Sınıflandırması (CPC) kapsamındaki Patentlera: İnsan İhtiyaçları

  • Veri kümesi boyutu : 5.16 GiB

  • Bölmeler :

Bölmek Örnekler
'test' 9.675
'train' 174,134
'validation' 9.674

büyük_patent/b

  • Yapılandırma açıklaması : Ortak Patent Sınıflandırması (CPC) kapsamındaki Patentler b: İşlemleri Gerçekleştirme; taşıma

  • Veri kümesi boyutu : 4.06 GiB

  • Bölmeler :

Bölmek Örnekler
'test' 8974
'train' 161.520
'validation' 8973

big_patent/c

  • Yapılandırma açıklaması : Ortak Patent Sınıflandırması (CPC)c kapsamındaki patentler: Kimya; metalurji

  • Veri kümesi boyutu : 3.63 GiB

  • Bölmeler :

Bölmek Örnekler
'test' 5.614
'train' 101.042
'validation' 5.613

büyük_patent/d

  • Yapılandırma açıklaması : Kooperatif Patent Sınıflandırması (CPC)d: Tekstiller; Kağıt

  • Veri kümesi boyutu : 255.56 MiB

  • Bölmeler :

Bölmek Örnekler
'test' 565
'train' 10.164
'validation' 565

big_patent/e

  • Yapılandırma açıklaması : Kooperatif Patent Sınıflandırması (CPC)e altındaki Patentler: Sabit Yapılar

  • Veri kümesi boyutu : 871.40 MiB

  • Bölmeler :

Bölmek Örnekler
'test' 1.914
'train' 34.443
'validation' 1.914

büyük_patent/f

  • Yapılandırma açıklaması : Ortak Patent Sınıflandırması (CPC) kapsamındaki patentler f: Makine Mühendisliği; Şimşek; Isıtma; Silahlar; patlatma

  • Veri kümesi boyutu : 2.06 GiB

  • Bölmeler :

Bölmek Örnekler
'test' 4.754
'train' 85.568
'validation' 4.754

büyük_patent/g

  • Yapılandırma açıklaması : Ortak Patent Sınıflandırması (CPC)g altındaki Patentler: Fizik

  • Veri kümesi boyutu : 8.19 GiB

  • Bölmeler :

Bölmek Örnekler
'test' 14.386
'train' 258.935
'validation' 14.385

büyük_patent/saat

  • Yapılandırma açıklaması : Kooperatif Patent Sınıflandırması (CPC)h altındaki patentler: Elektrik

  • Veri kümesi boyutu : 7.50 GiB

  • Bölmeler :

Bölmek Örnekler
'test' 14.279
'train' 257.019
'validation' 14.279

büyük_patent/y

  • Yapılandırma açıklaması : Ortak Patent Sınıflandırması (CPC)y kapsamındaki patentler: Yeni veya kesitsel teknolojinin genel etiketlemesi

  • Veri kümesi boyutu : 3.46 GiB

  • Bölmeler :

Bölmek Örnekler
'test' 6.911
'train' 124.397
'validation' 6.911