- توضیحات :
WikiHow یک مجموعه داده جدید در مقیاس بزرگ است که از پایگاه دانش آنلاین WikiHow ( http://www.wikihow.com/ ) استفاده می کند.
دو ویژگی وجود دارد: - متن: wikihow به متن پاسخ می دهد. - عنوان: خطوط پررنگ به عنوان خلاصه.
دو نسخه جداگانه وجود دارد: - همه: متشکل از الحاق تمام پاراگراف ها به عنوان مقاله و خطوط پررنگ به عنوان خلاصه های مرجع. - sep: متشکل از هر پاراگراف و خلاصه آن.
"wikihowAll.csv" و "wikihowSep.csv" را از https://github.com/mahnazkoupaee/WikiHow-Dataset بارگیری کرده و در پوشه دستی https://www.tensorflow.org/datasets/api_docs/python/tfds/ قرار دهید دانلود / بارگیری تقسیم بندی اعتبار / اعتبارسنجی / آزمون توسط نویسندگان ارائه شده است. پیش پردازش برای حذف مقالات کوتاه (طول انتزاع <75/0 طول مقاله) و پاکسازی ویرگول های اضافی اعمال می شود.
صفحه اصلی : https://github.com/mahnazkoupaee/WikiHow-Dataset
کد منبع :
tfds.summarization.Wikihow
نسخه ها :
-
1.2.0
(پیش فرض): بدون یادداشت انتشار.
-
اندازه بارگیری :
5.21 MiB
اندازه مجموعه داده :
Unknown size
دستورالعمل های بارگیری دستی : برای این مجموعه داده لازم است که داده های منبع را به صورت دستی در
download_config.manual_dir
(به طور پیش فرض~/tensorflow_datasets/downloads/manual/
):
پیوند به پرونده ها را می توان در https://github.com/mahnazkoupaee/WikiHow-Dataset یافت. لطفاً هم wikihowAll.csv و هم wikihowSep.csv را بارگیری کنید.ذخیره خودکار ( مستندات ): ناشناخته است
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):('text', 'headline')
نقل قول :
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- شکل ( tfds.show_examples ): پشتیبانی نمی شود.
wikihow / all (پیکربندی پیش فرض)
توضیحات پیکربندی : از ترکیب همه پاراگراف ها به عنوان مقاله و خطوط پررنگ به عنوان خلاصه مرجع استفاده کنید
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 5،577 |
'train' | 157،252 |
'validation' | 5،599 |
- ویژگی ها :
FeaturesDict({
'headline': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
})
- مثالها ( tfds.as_dataframe ):
wikihow / sep
توضیحات پیکربندی : از هر پاراگراف و خلاصه آن استفاده کنید.
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 37،800 |
'train' | 1،060،732 |
'validation' | 37،932 |
- ویژگی ها :
FeaturesDict({
'headline': Text(shape=(), dtype=tf.string),
'overview': Text(shape=(), dtype=tf.string),
'sectionLabel': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
})
- مثالها ( tfds.as_dataframe ):