امروز برای رویداد محلی TensorFlow خود در همه جا پاسخ دهید!
این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

اتاق خبر

  • توضیحات :

NEWSROOM یک مجموعه بزرگ برای آموزش و ارزیابی سیستم های جمع بندی است. این مقاله شامل 1.3 میلیون مقاله و خلاصه نوشته شده توسط نویسندگان و ویراستاران در اتاق های خبری 38 نشریه مهم است.

ویژگی های مجموعه داده شامل: - متن: متن خبر ورودی را وارد کنید. - خلاصه: خلاصه اخبار. و ویژگی های اضافی: - عنوان: عنوان خبر. - url: آدرس اینترنتی اخبار. - تاریخ: تاریخ مقاله. - تراکم: تراکم استخراجی. - پوشش: پوشش استخراجی. - فشرده سازی: نسبت فشرده سازی. - dens_bin: کم ، متوسط ​​، زیاد. - protection_bin: استخراجی ، انتزاعی. - compression_bin: کم ، متوسط ​​، زیاد.

این مجموعه داده را می توان در صورت درخواست بارگیری کرد. تمام محتویات "train.jsonl، dev.josnl، test.jsonl" را از پوشه tfds خارج کنید.

  • صفحه اصلی : https://summari.es

  • کد منبع : tfds.summarization.Newsroom

  • نسخه ها :

    • 1.0.0 (پیش فرض): بدون یادداشت انتشار.
  • اندازه بارگیری : Unknown size

  • اندازه مجموعه داده : Unknown size

  • دستورالعمل های بارگیری دستی : برای این مجموعه داده لازم است که داده های منبع را به صورت دستی در download_config.manual_dir (به طور پیش فرض ~/tensorflow_datasets/downloads/manual/ ):
    شما باید مجموعه داده را از https://summari.es/download/ بارگیری کنید . صفحه وب نیاز به ثبت دارد. پس از بارگیری ، لطفاً پرونده های dev.jsonl ، test.jsonl و train.jsonl را در manual_dir قرار دهید.

  • ذخیره خودکار ( مستندات ): ناشناخته است

  • تقسیم :

شکاف مثال ها
'test' 108،862
'train' 995،041
'validation' 108،837
  • ویژگی ها :
FeaturesDict({
    'compression': tf.float32,
    'compression_bin': Text(shape=(), dtype=tf.string),
    'coverage': tf.float32,
    'coverage_bin': Text(shape=(), dtype=tf.string),
    'date': Text(shape=(), dtype=tf.string),
    'density': tf.float32,
    'density_bin': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
  • کلیدهای تحت نظارت (به as_supervised سند نظارت شده مراجعه کنید): ('text', 'summary')

  • نقل قول :

@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}