لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

غرفة الأخبار

  • الوصف :

NEWSROOM هي مجموعة بيانات كبيرة للتدريب وتقييم أنظمة التلخيص. يحتوي على 1.3 مليون مقالة وملخصات كتبها مؤلفون ومحرّرون في غرف أخبار 38 مطبوعة رئيسية.

تتضمن ميزات مجموعة البيانات: - نص: إدخال نص أخبار. - الملخص: ملخص الخبر. ومميزات إضافية: - العنوان: عنوان الخبر. - url: url الخاص بالأخبار. - التاريخ: تاريخ المقال. - الكثافة: الكثافة الاستخراجية. - التغطية: تغطية إستخراجية. - الضغط: نسبة الضغط. - كثافة_بن: منخفض ، متوسط ​​، مرتفع. - cover_bin: استخلاصي تجريدي. - compression_bin: منخفض ، متوسط ​​، مرتفع.

يمكن تنزيل مجموعة البيانات هذه عند الطلب. قم بفك ضغط كافة المحتويات "train.jsonl ، dev.josnl ، test.jsonl" إلى مجلد tfds.

  • الصفحة الرئيسية https://summari.es

  • كود المصدر : tfds.summarization.Newsroom

  • إصدارات :

    • 1.0.0 (افتراضي): لا توجد ملاحظات حول الإصدار.
  • حجم التنزيل : Unknown size

  • حجم مجموعة البيانات : Unknown size

  • إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ ):
    يجب عليك تنزيل مجموعة البيانات من https://summari.es/download/ تتطلب صفحة الويب التسجيل. بعد التنزيل ، يرجى وضع ملفات dev.jsonl و test.jsonl و train.jsonl في manual_dir.

  • التخزين المؤقت التلقائي ( الوثائق ): غير معروف

  • الانقسامات :

انشق، مزق أمثلة
'test' 108862
'train' 995،041
'validation' 108837
  • الميزات :
FeaturesDict({
    'compression': tf.float32,
    'compression_bin': Text(shape=(), dtype=tf.string),
    'coverage': tf.float32,
    'coverage_bin': Text(shape=(), dtype=tf.string),
    'date': Text(shape=(), dtype=tf.string),
    'density': tf.float32,
    'density_bin': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
  • الاقتباس :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}