- توضیحات :
NEWSROOM یک مجموعه بزرگ برای آموزش و ارزیابی سیستم های جمع بندی است. این مقاله شامل 1.3 میلیون مقاله و خلاصه نوشته شده توسط نویسندگان و ویراستاران در اتاق های خبری 38 نشریه مهم است.
ویژگی های مجموعه داده شامل: - متن: متن خبر ورودی را وارد کنید. - خلاصه: خلاصه اخبار. و ویژگی های اضافی: - عنوان: عنوان خبر. - url: آدرس اینترنتی اخبار. - تاریخ: تاریخ مقاله. - تراکم: تراکم استخراجی. - پوشش: پوشش استخراجی. - فشرده سازی: نسبت فشرده سازی. - dens_bin: کم ، متوسط ، زیاد. - protection_bin: استخراجی ، انتزاعی. - compression_bin: کم ، متوسط ، زیاد.
این مجموعه داده را می توان در صورت درخواست بارگیری کرد. تمام محتویات "train.jsonl، dev.josnl، test.jsonl" را از پوشه tfds خارج کنید.
صفحه اصلی : https://summari.es
کد منبع :
tfds.summarization.Newsroom
نسخه ها :
-
1.0.0
(پیش فرض): بدون یادداشت انتشار.
-
اندازه بارگیری :
Unknown size
اندازه مجموعه داده :
Unknown size
دستورالعمل های بارگیری دستی : برای این مجموعه داده لازم است که داده های منبع را به صورت دستی در
download_config.manual_dir
(به طور پیش فرض~/tensorflow_datasets/downloads/manual/
):
شما باید مجموعه داده را از https://summari.es/download/ بارگیری کنید . صفحه وب نیاز به ثبت دارد. پس از بارگیری ، لطفاً پرونده های dev.jsonl ، test.jsonl و train.jsonl را در manual_dir قرار دهید.ذخیره خودکار ( مستندات ): ناشناخته است
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 108،862 |
'train' | 995،041 |
'validation' | 108،837 |
- ویژگی ها :
FeaturesDict({
'compression': tf.float32,
'compression_bin': Text(shape=(), dtype=tf.string),
'coverage': tf.float32,
'coverage_bin': Text(shape=(), dtype=tf.string),
'date': Text(shape=(), dtype=tf.string),
'density': tf.float32,
'density_bin': Text(shape=(), dtype=tf.string),
'summary': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'url': Text(shape=(), dtype=tf.string),
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):('text', 'summary')
نقل قول :
@article{Grusky_2018,
title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
url={http://dx.doi.org/10.18653/v1/n18-1065},
DOI={10.18653/v1/n18-1065},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 1 (Long Papers)},
publisher={Association for Computational Linguistics},
author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
year={2018}
}
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):