reddit_tifu

  • الوصف :

مجموعة بيانات Reddit ، حيث تشير TIFU إلى اسم subbreddit / r / tifu. كما هو محدد في المنشور ، يستخدم النمط "قصير" العنوان كموجز ويستخدم "طويل" tldr كملخص.

تشمل الميزات:

  • المستند: نص آخر بدون tldr.
  • tldr: خط tldr.
  • العنوان: قص العنوان بدون tldr.
  • يو بي إس: التصويتات المؤيدة.
  • النتيجة: النتيجة.
  • num_comments: عدد التعليقات.
  • upvote_ratio: نسبة التصويت الإيجابي.

  • وثائق إضافية : استكشف في الأوراق باستخدام الرمز

  • الصفحة الرئيسية : https://github.com/ctr4si/MMN

  • كود المصدر : tfds.datasets.reddit_tifu.Builder

  • إصدارات :

    • 1.1.0 : إزالة المستند الفارغ وسلاسل الملخص.
    • 1.1.1 : أضف تقسيمات train و dev و test (80/10/10) التي تُستخدم في PEGASUS ( https://arxiv.org/abs/1912.08777 ) في تكوين منفصل. تم إنشاء هذه بشكل عشوائي باستخدام وظيفة تقسيم tfds ويتم إصدارها للتأكد من أن النتائج على Reddit id Long قابلة للتكرار وقابلة للمقارنة. أضف أيضًا معرفًا إلى نقاط البيانات.
    • 1.1.2 (افتراضي): تحميل الانقسامات المصححة.
  • هيكل الميزة :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
مستندات نص سلسلة
هوية شخصية نص سلسلة
عدد_التعليقات موتر تعويم 32
نتيجة موتر تعويم 32
لقب نص سلسلة
tldr نص سلسلة
يو بي إس موتر تعويم 32
upvote_ratio موتر تعويم 32
@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu / short (التكوين الافتراضي)

  • وصف التكوين : استخدام العنوان كموجز.

  • حجم التحميل : 639.54 MiB

  • حجم مجموعة البيانات : 141.46 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): فقط عندما يكون shuffle_files=False (قطار)

  • الانقسامات :

انشق، مزق أمثلة
'train' 79.740

reddit_tifu / طويل

  • وصف التكوين : استخدام TLDR كملخص.

  • حجم التحميل : 639.54 MiB

  • حجم مجموعة البيانات : 93.10 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'train' 42139

reddit_tifu / long_split

  • وصف التكوين : استخدام TLDR كملخص وتقسيم تدريب العودة / اختبار / مطور.

  • حجم التحميل : 639.94 MiB

  • حجم مجموعة البيانات : 93.10 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 4214
'train' 33711
'validation' 4214