- توضیحات :
نظرات این مجموعه داده از آرشیو نظرات صفحه بحث ویکی پدیا آمده است. این موارد توسط Jigsaw برای سمیت، و همچنین (برای پیکربندی اصلی) انواع زیرگروه سمیت، از جمله سمیت شدید، فحاشی، زبان تهدید، زبان توهین آمیز، و حملات هویتی حاشیه نویسی شده است. این مجموعه داده کپی دادههای منتشر شده برای چالش طبقهبندی نظرات سمی Jigsaw و رقابت طبقهبندی نظرات سمی چندزبانه Jigsaw در Kaggle است، با مجموعه دادههای آزمایشی با برچسبهای test ادغام شده پس از پایان رقابتها. دادههای آزمایشی که برای امتیازدهی استفاده نشده است حذف شده است. این مجموعه داده تحت CC0 منتشر شده است، همانطور که متن نظر اساسی است.
کد منبع :
tfds.text.WikipediaToxicitySubtypes
نسخه ها :
-
0.2.0
: ویژگی های به روز شده برای سازگاری با مجموعه داده CivilComments. -
0.3.0
: WikipediaToxicity پیکربندی چند زبانه اضافه شد. -
0.3.1
(پیش فرض): یک شناسه منحصر به فرد برای هر نظر اضافه شده است. (برای پیکربندی چند زبانه، اینها فقط در هر تقسیم منحصر به فرد هستند.)
-
حجم دانلود :
50.57 MiB
ذخیره خودکار ( اسناد ): بله
کلیدهای نظارت شده (نگاه کنید به
as_supervised
doc ):('text', 'toxicity')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :
@inproceedings{10.1145/3038912.3052591,
author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
title = {Ex Machina: Personal Attacks Seen at Scale},
year = {2017},
isbn = {9781450349130},
publisher = {International World Wide Web Conferences Steering Committee},
address = {Republic and Canton of Geneva, CHE},
url = {https://doi.org/10.1145/3038912.3052591},
doi = {10.1145/3038912.3052591},
booktitle = {Proceedings of the 26th International Conference on World Wide Web},
pages = {1391-1399},
numpages = {9},
keywords = {online discussions, wikipedia, online harassment},
location = {Perth, Australia},
series = {WWW '17}
}
wikipedia_toxicity_subtypes/EnglishSubtypes (پیکربندی پیشفرض)
- توضیحات پیکربندی : نظرات موجود در پیکربندی WikipediaToxicitySubtypes از آرشیو نظرات صفحه بحث ویکیپدیا انگلیسی است که توسط Jigsaw برای سمیت، و همچنین پنج برچسب زیرمجموعه سمیت (مسمومیت شدید، زشت، تهدید، توهین، حمله به هویت) حاشیهنویسی شده است. برچسبهای زیرگروه سمیت و سمیت مقادیر باینری (0 یا 1) هستند که نشان میدهد آیا اکثر حاشیهنویسها آن ویژگی را به متن نظر اختصاص دادهاند یا خیر. این پیکربندی کپی دادههای منتشر شده برای چالش طبقهبندی نظرات سمی Jigsaw در Kaggle است، با مجموعه دادههای آزمایشی به test_labelهای منتشر شده پس از مسابقه و دادههای آزمایشی که برای امتیازدهی استفاده نمیشوند، کاهش یافته است.
برای جزئیات بیشتر به مستندات Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data یا https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 مراجعه کنید.
صفحه اصلی : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
حجم مجموعه داده :
128.32 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 63,978 |
'train' | 159,571 |
- ساختار ویژگی :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'identity_attack': float32,
'insult': float32,
'language': Text(shape=(), dtype=string),
'obscene': float32,
'severe_toxicity': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
شناسه | متن | رشته | ||
هویت_حمله | تانسور | float32 | ||
توهین | تانسور | float32 | ||
زبان | متن | رشته | ||
ناپسند | تانسور | float32 | ||
سمیت_شدید | تانسور | float32 | ||
متن | متن | رشته | ||
تهدید | تانسور | float32 | ||
سمیت | تانسور | float32 |
- مثالها ( tfds.as_dataframe ):
wikipedia_toxicity_subtypes/Multilingual
- توضیحات پیکربندی : نظرات موجود در پیکربندی WikipediaToxicityMultilingual در اینجا از آرشیو نظرات صفحه بحث ویکیپدیا غیرانگلیسی است که توسط Jigsaw برای سمیت حاشیهنویسی شده است، با یک مقدار دودویی (0 یا 1) که نشان میدهد آیا اکثر حاشیهنویسها متن نظر را سمی ارزیابی کردهاند یا خیر. نظرات در این پیکربندی به چندین زبان مختلف (ترکی، ایتالیایی، اسپانیایی، پرتغالی، روسی و فرانسوی) است. این پیکربندی کپی دادهای است که برای طبقهبندی نظرات سمی چندزبانه Jigsaw در Kaggle منتشر شده است، با مجموعه دادههای آزمایشی که به test_labelهای منتشر شده پس از مسابقه ملحق شدهاند.
برای جزئیات بیشتر به مستندات Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data مراجعه کنید.
صفحه اصلی : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
حجم مجموعه داده :
35.13 MiB
تقسیم ها :
شکاف | مثال ها |
---|---|
'test' | 63,812 |
'validation' | 8000 |
- ساختار ویژگی :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'language': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'toxicity': float32,
})
- مستندات ویژگی :
ویژگی | کلاس | شکل | نوع D | شرح |
---|---|---|---|---|
FeaturesDict | ||||
شناسه | متن | رشته | ||
زبان | متن | رشته | ||
متن | متن | رشته | ||
سمیت | تانسور | float32 |
- مثالها ( tfds.as_dataframe ):