बुकसुम

  • विवरण :

बुकसम: दीर्घ-रूपी वर्णनात्मक सारांश के लिए डेटासेट का संग्रह

यह कार्यान्वयन वर्तमान में केवल पुस्तक और अध्याय सारांशों का समर्थन करता है।

गिटहब: https://github.com/salesforce/booksum

मैनुअल फ़ोल्डर में निम्नलिखित निर्देशिकाएँ होनी चाहिए:

- `booksum/`
- `all_chapterized_books/`
  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ (परीक्षण, सत्यापन), केवल जब shuffle_files=False (ट्रेन)

  • फ़ीचर संरचना :

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
दस्तावेज़ मूलपाठ डोरी
सारांश मूलपाठ डोरी
@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

बुकसम/पुस्तक (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फिग विवरण : पुस्तक-स्तरीय संक्षिप्तीकरण

  • डेटासेट का आकार : 208.81 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 46
'train' 312
'validation' 45

बुकसम / चैप्टर

  • Config विवरण : अध्याय-स्तरीय संक्षेपण

  • डेटासेट का आकार : 216.71 MiB

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,083
'train' 6,524
'validation' 891