wikihow

با مجموعه‌ها، منظم بمانید ذخیره و دسته‌بندی محتوا براساس اولویت‌های شما.

  • توضیحات :

WikiHow یک مجموعه داده جدید در مقیاس بزرگ است که از پایگاه دانش آنلاین WikiHow ( http://www.wikihow.com/ ) استفاده می کند.

دو ویژگی وجود دارد: - متن: wikihow به متون پاسخ می دهد. - عنوان: خطوط پررنگ به عنوان خلاصه.

دو نسخه جداگانه وجود دارد: - همه: شامل الحاق همه پاراگراف ها به عنوان مقاله و خطوط پررنگ به عنوان خلاصه مرجع. - sep: مشتمل بر هر پاراگراف و خلاصه آن.

"wikihowAll.csv" و "wikihowSep.csv" را از https://github.com/mahnazkoupaee/WikiHow-Dataset دانلود کنید و آنها را در پوشه دستی https://www.tensorflow.org/datasets/api_docs/python/tfds/ قرار دهید. دانلود/DownloadConfig Train/Validation/Test splits توسط نویسندگان ارائه شده است. پیش پردازش برای حذف مقالات کوتاه (طول چکیده < 0.75 طول مقاله) و پاک کردن کاماهای اضافی اعمال می شود.

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow/all (پیکربندی پیش‌فرض)

  • توضیحات پیکربندی : از الحاق همه پاراگراف ها به عنوان مقاله و خطوط پررنگ به عنوان خلاصه مرجع استفاده کنید

  • حجم مجموعه داده : 531.56 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 5,577
'train' 157,252
'validation' 5,599
  • ساختار ویژگی :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
عنوان متن رشته
متن متن رشته
عنوان متن رشته

wikihow/sep

  • توضیحات پیکربندی : از هر پاراگراف و خلاصه آن استفاده کنید.

  • حجم مجموعه داده : 1.07 GiB

  • تقسیم ها :

شکاف مثال ها
'test' 37800
'train' 1,060,732
'validation' 37932
  • ساختار ویژگی :
FeaturesDict({
    'headline': Text(shape=(), dtype=string),
    'overview': Text(shape=(), dtype=string),
    'sectionLabel': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
عنوان متن رشته
بررسی اجمالی متن رشته
بخش برچسب متن رشته
متن متن رشته
عنوان متن رشته