لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

ويكي هاو

  • الوصف :

WikiHow هي مجموعة بيانات جديدة واسعة النطاق تستخدم قاعدة المعرفة على الإنترنت WikiHow ( http://www.wikihow.com/ ).

هناك ميزتان: - النص: نصوص إجابات wikiHow. - العنوان: خطوط عريضة كخلاصة.

هناك نسختان منفصلتان: - الكل: يتألف من تسلسل جميع الفقرات مثل المقالات والخطوط العريضة كملخصات مرجعية. - سبتمبر: يتكون من كل فقرة وملخصها.

قم بتنزيل "wikihowAll.csv" و "wikihowSep.csv" من https://github.com/mahnazkoupaee/WikiHow-Dataset وضعها في المجلد اليدوي https://www.tensorflow.org/datasets/api_docs/python/tfds/ يتم توفير تقسيمات التنزيل / DownloadConfig Train / Validation / test من قبل المؤلفين. يتم تطبيق المعالجة المسبقة لإزالة المقالات القصيرة (طول الملخص <0.75 طول المقالة) وتنظيف الفواصل الإضافية.

  • الصفحة الرئيسية : https://github.com/mahnazkoupaee/WikiHow-Dataset

  • كود المصدر : tfds.summarization.Wikihow

  • الإصدارات :

    • 1.2.0 (افتراضي): لا توجد ملاحظات حول الإصدار.
  • حجم التحميل : 5.21 MiB

  • حجم مجموعة البيانات : Unknown size

  • إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ ):
    يمكن العثور على روابط الملفات على https://github.com/mahnazkoupaee/WikiHow-Dataset يرجى تنزيل كل من wikihowAll.csv و wikihowSep.csv.

  • التخزين المؤقت التلقائي ( الوثائق ): غير معروف

  • المفاتيح الخاضعة للإشراف (راجع المستند as_supervised ): ('text', 'headline')

  • الشكل ( tfds.show_examples ): غير مدعوم.

  • الاقتباس :

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

ويكي هاو / الكل (التكوين الافتراضي)

  • وصف التكوين : استخدم تسلسل جميع الفقرات كمقالات والخطوط الغامقة كملخصات مرجعية

  • الانقسامات :

انشق، مزق أمثلة
'test' 5،577
'train' 157252
'validation' 5،599
  • الميزات :
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

ويكي هاو / سبتمبر

  • وصف التكوين : استخدم كل فقرة وملخصها.

  • الانقسامات :

انشق، مزق أمثلة
'test' 37800
'train' 1،060،732
'validation' 37932
  • الميزات :
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'overview': Text(shape=(), dtype=tf.string),
    'sectionLabel': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})