reddit_disentanglement

الوصف :

تحتوي مجموعة البيانات هذه على حوالي 3 ملايين رسالة من reddit. يتم تصنيف كل رسالة ببيانات وصفية. وتتمثل المهمة في التنبؤ بمعرف الرسالة الأم في السلسلة المقابلة. يحتوي كل سجل على قائمة رسائل من موضوع واحد. تتم إزالة السجلات المكررة والمعطلة من مجموعة البيانات.

الميزات هي:

معرف - معرف الرسالة
نص - نص الرسالة
المؤلف - مؤلف الرسالة
created_utc - الطابع الزمني لرسالة UTC
link_id - معرف المنشور الذي يتعلق به التعليق

استهداف:

parent_id - معرف الرسالة الأصل في الموضوع الحالي
الصفحة الرئيسية : https://github.com/henghuiz/MaskedHierarchicalTransformer
كود المصدر : tfds.datasets.reddit_disentanglement.Builder
إصدارات :
- 2.0.0 (افتراضي): لا توجد ملاحظات حول الإصدار.
حجم التنزيل : Unknown size
حجم مجموعة البيانات : Unknown size
إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ ):
قم بتنزيل https://github.com/henghuiz/MaskedHierarchicalTransformer ، وفك ضغط raw_data.zip وقم بتشغيل create_dataset.py باستخدام بيانات اعتماد reddit api الخاصة بك. ثم ضع train.csv و val.csv و test.csv من دليل الإخراج في المجلد اليدوي.
التخزين المؤقت التلقائي ( الوثائق ): غير معروف
الانقسامات :

انشق، مزق	أمثلة

هيكل الميزة :

FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=string),
        'created_utc': Text(shape=(), dtype=string),
        'id': Text(shape=(), dtype=string),
        'link_id': Text(shape=(), dtype=string),
        'parent_id': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
})

وثائق الميزة :

ميزة	فصل	نوع
	الميزات
مسلك	تسلسل
الموضوع / المؤلف	نص	سلسلة
موضوع / created_utc	نص	سلسلة
موضوع / معرف	نص	سلسلة
موضوع / link_id	نص	سلسلة
موضوع / معرف الوالدين	نص	سلسلة
موضوع / نص	نص	سلسلة

المفاتيح الخاضعة للإشراف (انظر المستند as_supervised ): None
الشكل ( tfds.show_examples ): غير مدعوم.
أمثلة ( tfds.as_dataframe ): مفقود.
الاقتباس :

@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}

reddit_disentanglement تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.

reddit_disentanglement