امروز برای رویداد محلی TensorFlow خود در همه جا پاسخ دهید!
این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

ویکی

  • توضیحات :

WikiHow یک مجموعه داده جدید در مقیاس بزرگ است که از پایگاه دانش آنلاین WikiHow ( http://www.wikihow.com/ ) استفاده می کند.

دو ویژگی وجود دارد: - متن: wikihow به متن پاسخ می دهد. - عنوان: خطوط پررنگ به عنوان خلاصه.

دو نسخه جداگانه وجود دارد: - همه: متشکل از الحاق تمام پاراگراف ها به عنوان مقاله و خطوط پررنگ به عنوان خلاصه های مرجع. - sep: متشکل از هر پاراگراف و خلاصه آن.

"wikihowAll.csv" و "wikihowSep.csv" را از https://github.com/mahnazkoupaee/WikiHow-Dataset بارگیری کرده و در پوشه دستی https://www.tensorflow.org/datasets/api_docs/python/tfds/ قرار دهید دانلود / بارگیری تقسیم بندی اعتبار / اعتبارسنجی / آزمون توسط نویسندگان ارائه شده است. پیش پردازش برای حذف مقالات کوتاه (طول انتزاع <75/0 طول مقاله) و پاکسازی ویرگول های اضافی اعمال می شود.

  • صفحه اصلی : https://github.com/mahnazkoupaee/WikiHow-Dataset

  • کد منبع : tfds.summarization.Wikihow

  • نسخه ها :

    • 1.2.0 (پیش فرض): بدون یادداشت انتشار.
  • اندازه بارگیری : 5.21 MiB

  • اندازه مجموعه داده : Unknown size

  • دستورالعمل های بارگیری دستی : برای این مجموعه داده لازم است که داده های منبع را به صورت دستی در download_config.manual_dir (به طور پیش فرض ~/tensorflow_datasets/downloads/manual/ ):
    پیوند به پرونده ها را می توان در https://github.com/mahnazkoupaee/WikiHow-Dataset یافت. لطفاً هم wikihowAll.csv و هم wikihowSep.csv را بارگیری کنید.

  • ذخیره خودکار ( مستندات ): ناشناخته است

  • کلیدهای تحت نظارت (به as_supervised سند نظارت شده مراجعه کنید): ('text', 'headline')

  • نقل قول :

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow / all (پیکربندی پیش فرض)

  • توضیحات پیکربندی : از ترکیب همه پاراگراف ها به عنوان مقاله و خطوط پررنگ به عنوان خلاصه مرجع استفاده کنید

  • تقسیم :

شکاف مثال ها
'test' 5،577
'train' 157،252
'validation' 5،599
  • ویژگی ها :
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

wikihow / sep

  • توضیحات پیکربندی : از هر پاراگراف و خلاصه آن استفاده کنید.

  • تقسیم :

شکاف مثال ها
'test' 37،800
'train' 1،060،732
'validation' 37،932
  • ویژگی ها :
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'overview': Text(shape=(), dtype=tf.string),
    'sectionLabel': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})