- توضیحات :
این نسخه از مجموعه داده های زیرنوع سمیت ویکی پدیا دسترسی به برچسب سمیت اولیه و همچنین پنج برچسب زیر نوع سمیت را که توسط کارگران جمعیت حاشیه نویسی شده است ، فراهم می کند. برچسب های زیر نوع سمیت و سمیت مقادیر دودویی هستند (0 یا
1) نشان می دهد که آیا اکثر حاشیه نویسان این ویژگی را به متن نظر اختصاص داده اند.
نظرات این مجموعه داده از بایگانی نظرات صفحات بحث ویکی پدیا است. اینها توسط Jigsaw برای سمیت ، و همچنین انواع مختلفی از زیر گروه سمیت ، از جمله سمیت شدید ، فحاشی ، زبان تهدیدآمیز ، زبان توهین آمیز و حملات هویتی حاشیه نویسی شده است. این مجموعه داده تکراری از داده های منتشر شده برای چالش طبقه بندی نظرات اره منبت کاری اره مویی در Kaggle است ، مجموعه آموزش بدون تغییر است و مجموعه داده آزمون با test_labels منتشر شده پس از پایان مسابقه ادغام می شود. داده های آزمایشی که برای امتیازدهی استفاده نشده اند حذف شده اند. این مجموعه داده تحت متن CC0 منتشر می شود ، همانطور که متن زیر نظر دارد.
برای جزئیات بیشتر به اسناد کاگل یا https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 مراجعه کنید.
صفحه اصلی : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
کد منبع :
tfds.text.WikipediaToxicitySubtypes
نسخه ها :
-
0.2.0
(پیش فرض): ویژگی های به روز شده برای سازگاری با مجموعه داده CivilComments.
-
حجم دانلود :
36.85 MiB
اندازه مجموعه داده :
118.09 MiB
ذخیره خودکار ( مستندات ): بله
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 63،978 |
'train' | 159،571 |
- ویژگی ها :
FeaturesDict({
'identity_attack': tf.float32,
'insult': tf.float32,
'obscene': tf.float32,
'severe_toxicity': tf.float32,
'text': Text(shape=(), dtype=tf.string),
'threat': tf.float32,
'toxicity': tf.float32,
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):('text', 'toxicity')
نقل قول :
@inproceedings{10.1145/3038912.3052591,
author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
title = {Ex Machina: Personal Attacks Seen at Scale},
year = {2017},
isbn = {9781450349130},
publisher = {International World Wide Web Conferences Steering Committee},
address = {Republic and Canton of Geneva, CHE},
url = {https://doi.org/10.1145/3038912.3052591},
doi = {10.1145/3038912.3052591},
booktitle = {Proceedings of the 26th International Conference on World Wide Web},
pages = {1391-1399},
numpages = {9},
keywords = {online discussions, wikipedia, online harassment},
location = {Perth, Australia},
series = {WWW '17}
}
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):