لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

reddit_disentanglement

  • الوصف :

تحتوي مجموعة البيانات هذه على حوالي 3 ملايين رسالة من reddit. يتم تصنيف كل رسالة ببيانات وصفية. وتتمثل المهمة في التنبؤ بمعرف الرسالة الأم في السلسلة المقابلة. يحتوي كل سجل على قائمة رسائل من موضوع واحد. تتم إزالة السجلات المكررة والمعطلة من مجموعة البيانات.

الميزات هي: - المعرف - معرف الرسالة - نص - نص الرسالة - المؤلف - مؤلف الرسالة - created_utc - طابع التوقيت العالمي المنسق للرسالة - link_id - معرف المنشور الذي يتعلق التعليق به الهدف: - parent_id - معرف الرسالة الأصل في السلسلة الحالية

  • الصفحة الرئيسية : https://github.com/henghuiz/MaskedHierarchicalTransformer

  • كود المصدر : tfds.text.RedditDisentanglement

  • إصدارات :

    • 2.0.0 (افتراضي): لا توجد ملاحظات حول الإصدار.
  • حجم التنزيل : Unknown size

  • حجم مجموعة البيانات : Unknown size

  • إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ )
    قم بتنزيل https://github.com/henghuiz/MaskedHierarchicalTransformer ، وفك ضغط raw_data.zip وقم بتشغيل create_dataset.py باستخدام بيانات اعتماد reddit api الخاصة بك. ثم ضع train.csv و val.csv و test.csv من دليل الإخراج في المجلد اليدوي.

  • التخزين المؤقت التلقائي ( الوثائق ): غير معروف

  • الانقسامات :

انشق، مزق أمثلة
  • الميزات :
FeaturesDict({
    'thread': Sequence({
        'author': Text(shape=(), dtype=tf.string),
        'created_utc': Text(shape=(), dtype=tf.string),
        'id': Text(shape=(), dtype=tf.string),
        'link_id': Text(shape=(), dtype=tf.string),
        'parent_id': Text(shape=(), dtype=tf.string),
        'text': Text(shape=(), dtype=tf.string),
    }),
})
@article{zhu2019did,
  title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
  author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
  journal={arXiv preprint arXiv:1911.10666},
  year={2019}
}