big_patent

  • বর্ণনা :

BIGPATENT, মানুষের লিখিত বিমূর্ত সারাংশ সহ মার্কিন পেটেন্ট নথির 1.3 মিলিয়ন রেকর্ড সমন্বিত। প্রতিটি মার্কিন পেটেন্ট আবেদন একটি সমবায় পেটেন্ট ক্লাসিফিকেশন (CPC) কোডের অধীনে দায়ের করা হয়। এই ধরনের নয়টি শ্রেণীবিভাগ রয়েছে:

  • A (মানবীয় প্রয়োজনীয়তা),
  • B (পারফর্মিং অপারেশনস; ট্রান্সপোর্টিং),
  • সি (রসায়ন; ধাতুবিদ্যা),
  • ডি (টেক্সটাইল; কাগজ),
  • ই (স্থির নির্মাণ),
  • F (মেকানিক্যাল ইঞ্জিনিয়ারিং; লাইটনিং; হিটিং; অস্ত্র; বিস্ফোরণ),
  • জি (পদার্থবিদ্যা),
  • এইচ (বিদ্যুৎ), এবং
  • Y (নতুন বা ক্রস-বিভাগীয় প্রযুক্তির সাধারণ ট্যাগিং)

দুটি বৈশিষ্ট্য আছে:

  • বর্ণনা: পেটেন্টের বিস্তারিত বিবরণ।
  • সারাংশ: পেটেন্ট বিমূর্ত।

  • অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন

  • হোমপেজ : https://evasharma.github.io/bigpatent/

  • সোর্স কোড : tfds.datasets.big_patent.Builder

  • সংস্করণ :

    • 1.0.0 : ছোট হাতের টোকেনাইজড শব্দ
    • 2.0.0 : কেসড কাঁচা স্ট্রিং ব্যবহার করার জন্য আপডেট করুন
    • 2.1.2 (ডিফল্ট): কেসড কাঁচা স্ট্রিংগুলিতে আপডেট ঠিক করুন।
  • ডাউনলোড সাইজ : 9.45 GiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বৈশিষ্ট্য গঠন :

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'description': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
বিমূর্ত পাঠ্য স্ট্রিং
বর্ণনা পাঠ্য স্ট্রিং
  • তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): ('description', 'abstract')

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (ডিফল্ট কনফিগারেশন)

  • কনফিগারেশনের বিবরণ : সমস্ত বিভাগের অধীনে পেটেন্ট।

  • ডেটাসেটের আকার : 35.17 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 67,072
'train' 1,207,222
'validation' 67,068

big_patent/a

  • কনফিগার বিবরণ : সমবায় পেটেন্ট শ্রেণীবিভাগের অধীনে পেটেন্ট (CPC)a: মানুষের প্রয়োজনীয়তা

  • ডেটাসেটের আকার : 5.16 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 9,675
'train' 174,134
'validation' ৯,৬৭৪

big_patent/b

  • কনফিগারেশনের বিবরণ : কোঅপারেটিভ পেটেন্ট ক্লাসিফিকেশন (CPC)-এর অধীনে পেটেন্ট: পারফর্মিং অপারেশন; পরিবহন

  • ডেটাসেটের আকার : 4.06 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ৮,৯৭৪
'train' 161,520
'validation' ৮,৯৭৩

big_patent/c

  • কনফিগার বিবরণ : সমবায় পেটেন্ট শ্রেণীবিভাগের অধীনে পেটেন্ট (CPC)c: রসায়ন; ধাতুবিদ্যা

  • ডেটাসেটের আকার : 3.63 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' ৫,৬১৪
'train' 101,042
'validation' ৫,৬১৩

big_patent/d

  • কনফিগারেশনের বিবরণ : কোঅপারেটিভ পেটেন্ট ক্লাসিফিকেশন (CPC)d এর অধীনে পেটেন্ট: টেক্সটাইল; কাগজ

  • ডেটাসেটের আকার : 255.56 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 565
'train' 10,164
'validation' 565

big_patent/e

  • কনফিগারেশনের বিবরণ : সমবায় পেটেন্ট ক্লাসিফিকেশন (CPC) এর অধীনে পেটেন্ট: স্থির নির্মাণ

  • ডেটাসেটের আকার : 871.40 MiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,914
'train' 34,443
'validation' 1,914

big_patent/f

  • কনফিগারের বিবরণ : কোঅপারেটিভ পেটেন্ট ক্লাসিফিকেশন (CPC)এর অধীনে পেটেন্ট f: মেকানিক্যাল ইঞ্জিনিয়ারিং; বজ্র; গরম করার; অস্ত্র; বিস্ফোরণ

  • ডেটাসেটের আকার : 2.06 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 4,754
'train' ৮৫,৫৬৮
'validation' 4,754

big_patent/g

  • কনফিগার বিবরণ : সমবায় পেটেন্ট ক্লাসিফিকেশন (CPC)g: পদার্থবিদ্যার অধীনে পেটেন্ট

  • ডেটাসেটের আকার : 8.19 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 14,386
'train' 258,935
'validation' 14,385

big_patent/h

  • কনফিগার বিবরণ : সমবায় পেটেন্ট শ্রেণীবিভাগের অধীনে পেটেন্ট (CPC)h: বিদ্যুৎ

  • ডেটাসেটের আকার : 7.50 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 14,279
'train' 257,019
'validation' 14,279

big_patent/y

  • কনফিগারেশনের বিবরণ : কোঅপারেটিভ পেটেন্ট ক্লাসিফিকেশন (CPC)y-এর অধীনে পেটেন্ট: নতুন বা ক্রস-বিভাগীয় প্রযুক্তির সাধারণ ট্যাগিং

  • ডেটাসেটের আকার : 3.46 GiB

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 6,911
'train' 124,397
'validation' 6,911