samsum

الوصف :

تحتوي مجموعة SAMSum Corpus على أكثر من 16 ألف حوارات دردشة مع ملخصات مشروحة يدويًا.

هناك نوعان من الميزات:

الحوار: نص الحوار.
الملخص: الملخص البشري المكتوب للحوار.
معرف: معرف مثال.
وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://arxiv.org/src/1911.12237v2/anc
كود المصدر : tfds.datasets.samsum.Builder
إصدارات :
- 1.0.0 (افتراضي): لا توجد ملاحظات حول الإصدار.
حجم التنزيل : Unknown size
حجم مجموعة البيانات : 10.71 MiB
إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ ):
قم بتنزيل https://arxiv.org/src/1911.12237v2/anc/corpus.7z ، وقم بفك الضغط ووضع train.json و val.json و test.json في دليل فولدر.
التخزين المؤقت التلقائي ( الوثائق ): نعم
الانقسامات :

انشق، مزق	أمثلة
`'test'`	819
`'train'`	14،732
`'validation'`	818

هيكل الميزة :

FeaturesDict({
    'dialogue': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})

وثائق الميزة :

ميزة	فصل	نوع
	الميزات
حوار	نص	سلسلة
هوية شخصية	نص	سلسلة
ملخص	نص	سلسلة

المفاتيح الخاضعة للإشراف (انظر as_supervised doc ): ('dialogue', 'summary')
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ):

الاقتباس :

@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}

samsum تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.

samsum