reddit_tifu

با مجموعه‌ها، منظم بمانید ذخیره و دسته‌بندی محتوا براساس اولویت‌های شما.

  • توضیحات :

مجموعه داده Reddit، که در آن TIFU نام subbreddit /r/tifu را نشان می دهد. همانطور که در نشریه تعریف شده است، سبک "کوتاه" از عنوان به عنوان خلاصه و "طولان" از tldr به عنوان خلاصه استفاده می کند.

ویژگی ها شامل:

  • سند: ارسال متن بدون tldr.
  • tldr: خط tldr.
  • عنوان: عنوان کوتاه شده بدون tldr.
  • ups: رای موافق.
  • امتیاز: امتیاز.
  • num_comments: تعداد نظرات.
  • upvote_ratio: نسبت رأی مثبت.

  • اسناد اضافی : کاوش در کاغذها با کد

  • صفحه اصلی : https://github.com/ctr4si/MMN

  • کد منبع : tfds.datasets.reddit_tifu.Builder

  • نسخه ها :

    • 1.1.0 : سند خالی و رشته های خلاصه را حذف کنید.
    • 1.1.1 : تقسیم‌های قطار، توسعه‌دهنده و آزمایش (80/10/10) را که در PEGASUS ( https://arxiv.org/abs/1912.08777 ) استفاده می‌شوند را در یک پیکربندی جداگانه اضافه کنید. اینها به‌طور تصادفی با استفاده از تابع تقسیم tfds ایجاد شده‌اند و برای اطمینان از اینکه نتایج در Reddit Tifu Long قابل تکرار و مقایسه هستند منتشر می‌شوند. همچنین id را به نقاط داده اضافه کنید.
    • 1.1.2 (پیش‌فرض): تقسیم‌های تصحیح شده آپلود شده است.
  • ساختار ویژگی :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
اسناد متن رشته
شناسه متن رشته
num_comments تانسور float32
نمره تانسور float32
عنوان متن رشته
tldr متن رشته
بالا تانسور float32
upvote_ratio تانسور float32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (پیکربندی پیش‌فرض)

  • توضیحات پیکربندی : استفاده از عنوان به عنوان خلاصه.

  • حجم دانلود : 639.54 MiB

  • حجم مجموعه داده : 141.46 MiB

  • ذخیره خودکار ( مستندات ): فقط زمانی که shuffle_files=False (قطار)

  • تقسیم ها :

شکاف مثال ها
'train' 79,740
  • کلیدهای نظارت شده (به as_supervised نظارت شده مراجعه کنید): ('documents', 'title')

  • مثال‌ها ( tfds.as_dataframe ):

reddit_tifu/long

  • توضیحات پیکربندی : استفاده از TLDR به عنوان خلاصه.

  • حجم دانلود : 639.54 MiB

  • حجم مجموعه داده : 93.10 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 42,139

reddit_tifu/long_split

  • توضیحات پیکربندی : استفاده از TLDR به عنوان خلاصه و تقسیم قطار/تست/تکن بازگشت.

  • حجم دانلود : 639.94 MiB

  • حجم مجموعه داده : 93.10 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'test' 4214
'train' 33711
'validation' 4214