- توضیحات :
این مجموعه داده شامل M 3 میلیون پیام از طریق reddit است. هر پیام با فراداده برچسب گذاری شده است. وظیفه این است که شناسه پیام اصلی آن را در بخش مربوطه پیش بینی کنید. هر رکورد حاوی لیستی از پیام های یک موضوع است. سوابق تکراری و شکسته از مجموعه داده حذف می شوند.
ویژگی ها عبارتند از: - شناسه - شناسه پیام - متن - متن پیام - نویسنده - نویسنده پیام - ایجاد شده - غیره - پیام UTC زمان - پیوند_id - شناسه پستی که نظر مربوط به هدف است: - والدین_ شناسه - شناسه پیام والدین در موضوع فعلی
صفحه اصلی : https://github.com/henghuiz/MaskedHierarchicalTransformer
کد منبع :
tfds.text.RedditDisentanglement
نسخه ها :
-
2.0.0
(پیش فرض): بدون یادداشت انتشار.
-
اندازه بارگیری :
Unknown size
اندازه مجموعه داده :
Unknown size
دستورالعمل های بارگیری دستی : برای این مجموعه داده لازم است که داده های منبع را به صورت دستی در
download_config.manual_dir
(به طور پیش فرض~/tensorflow_datasets/downloads/manual/
):
https://github.com/henghuiz/MaskedHierarchicalTransformer را بارگیری کنید ، raw_data.zip را از حالت فشرده خارج کرده و generate_dataset.py را با اعتبار سنجی reddit api خود اجرا کنید. سپس train.csv ، val.csv و test.csv را از پوشه خروجی در پوشه دستی قرار دهید.ذخیره خودکار ( مستندات ): ناشناخته است
تقسیم :
شکاف | مثال ها |
---|
- ویژگی ها :
FeaturesDict({
'thread': Sequence({
'author': Text(shape=(), dtype=tf.string),
'created_utc': Text(shape=(), dtype=tf.string),
'id': Text(shape=(), dtype=tf.string),
'link_id': Text(shape=(), dtype=tf.string),
'parent_id': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
}),
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):None
نقل قول :
@article{zhu2019did,
title={Who did They Respond to? Conversation Structure Modeling using Masked Hierarchical Transformer},
author={Zhu, Henghui and Nan, Feng and Wang, Zhiguo and Nallapati, Ramesh and Xiang, Bing},
journal={arXiv preprint arXiv:1911.10666},
year={2019}
}
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ): موجود نیست.