न्यूज रूम

  • विवरण :

NEWSROOM संक्षिप्तीकरण प्रणालियों के प्रशिक्षण और मूल्यांकन के लिए एक बड़ा डेटासेट है। इसमें 38 प्रमुख प्रकाशनों के समाचार कक्षों में लेखकों और संपादकों द्वारा लिखे गए 1.3 मिलियन लेख और सारांश शामिल हैं।

डेटासेट सुविधाओं में शामिल हैं:

  • पाठ: इनपुट समाचार पाठ।
  • सारांश: समाचार के लिए सारांश।

और अतिरिक्त विशेषताएं:

  • शीर्षक: समाचार शीर्षक।
  • url: समाचार का url।
  • दिनांक: लेख की तिथि।
  • घनत्व: निष्कर्षण घनत्व।
  • कवरेज: एक्स्ट्रेक्टिव कवरेज।
  • संपीड़न: संपीड़न अनुपात।
  • घनत्व_बिन: निम्न, मध्यम, उच्च।
  • cover_bin: निकालने वाला, सारगर्भित।
  • कंप्रेशन_बिन: निम्न, मध्यम, उच्च।

यह डेटासेट अनुरोधों पर डाउनलोड किया जा सकता है। सभी सामग्री "train.jsonl, dev.jsonl, test.jsonl" को tfds फ़ोल्डर में अनज़िप करें।

  • अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें

  • होमपेज : https://summari.es

  • स्रोत कोड : tfds.datasets.newsroom.Builder

  • संस्करण :

    • 1.0.0 (डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
  • डाउनलोड आकार : Unknown size

  • डेटासेट का आकार : 5.13 GiB

  • मैन्युअल डाउनलोड निर्देश : इस डेटासेट के लिए आपको स्रोत डेटा को मैन्युअल रूप से download_config.manual_dir (डिफ़ॉल्ट रूप से ~/tensorflow_datasets/downloads/manual/ ) में डाउनलोड करना होगा:
    आपको https://summari.es/download/ से डेटासेट डाउनलोड करना चाहिए। वेबपेज को पंजीकरण की आवश्यकता है। डाउनलोड करने के बाद, कृपया dev.jsonl, test.jsonl और train.jsonl फ़ाइलों को मैन्युअल_डीआईआर में डालें।

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 108,862
'train' 995,041
'validation' 108,837
  • फ़ीचर संरचना :
FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
COMPRESSION टेन्सर फ्लोट32
कंप्रेशन_बिन मूलपाठ डोरी
कवरेज टेन्सर फ्लोट32
cover_bin मूलपाठ डोरी
तारीख मूलपाठ डोरी
घनत्व टेन्सर फ्लोट32
Density_bin मूलपाठ डोरी
सारांश मूलपाठ डोरी
मूलपाठ मूलपाठ डोरी
शीर्षक मूलपाठ डोरी
यूआरएल मूलपाठ डोरी
  • उद्धरण :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}