wikipedia_toxicity_subtypes

توضیحات :

نظرات این مجموعه داده از آرشیو نظرات صفحه بحث ویکی پدیا آمده است. این موارد توسط Jigsaw برای سمیت، و همچنین (برای پیکربندی اصلی) انواع زیرگروه سمیت، از جمله سمیت شدید، فحاشی، زبان تهدید، زبان توهین آمیز، و حملات هویتی حاشیه نویسی شده است. این مجموعه داده کپی داده‌های منتشر شده برای چالش طبقه‌بندی نظرات سمی Jigsaw و رقابت طبقه‌بندی نظرات سمی چندزبانه Jigsaw در Kaggle است، با مجموعه داده‌های آزمایشی با برچسب‌های test ادغام شده پس از پایان رقابت‌ها. داده‌های آزمایشی که برای امتیازدهی استفاده نشده است حذف شده است. این مجموعه داده تحت CC0 منتشر شده است، همانطور که متن نظر اساسی است.

کد منبع : tfds.text.WikipediaToxicitySubtypes
نسخه ها :
- 0.2.0 : ویژگی های به روز شده برای سازگاری با مجموعه داده CivilComments.
- 0.3.0 : WikipediaToxicity پیکربندی چند زبانه اضافه شد.
- 0.3.1 (پیش فرض): یک شناسه منحصر به فرد برای هر نظر اضافه شده است. (برای پیکربندی چند زبانه، اینها فقط در هر تقسیم منحصر به فرد هستند.)
حجم دانلود : 50.57 MiB
ذخیره خودکار ( اسناد ): بله
کلیدهای نظارت شده (نگاه کنید به as_supervised doc ): ('text', 'toxicity')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSubtypes (پیکربندی پیش‌فرض)

توضیحات پیکربندی : نظرات موجود در پیکربندی WikipediaToxicitySubtypes از آرشیو نظرات صفحه بحث ویکی‌پدیا انگلیسی است که توسط Jigsaw برای سمیت، و همچنین پنج برچسب زیرمجموعه سمیت (مسمومیت شدید، زشت، تهدید، توهین، حمله به هویت) حاشیه‌نویسی شده است. برچسب‌های زیرگروه سمیت و سمیت مقادیر باینری (0 یا 1) هستند که نشان می‌دهد آیا اکثر حاشیه‌نویس‌ها آن ویژگی را به متن نظر اختصاص داده‌اند یا خیر. این پیکربندی کپی داده‌های منتشر شده برای چالش طبقه‌بندی نظرات سمی Jigsaw در Kaggle است، با مجموعه داده‌های آزمایشی به test_label‌های منتشر شده پس از مسابقه و داده‌های آزمایشی که برای امتیازدهی استفاده نمی‌شوند، کاهش یافته است.

برای جزئیات بیشتر به مستندات Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data یا https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 مراجعه کنید.

صفحه اصلی : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
حجم مجموعه داده : 128.32 MiB
تقسیم ها :

شکاف	مثال ها
`'test'`	63,978
`'train'`	159,571

ساختار ویژگی :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})

مستندات ویژگی :

ویژگی	کلاس	نوع D
	FeaturesDict
شناسه	متن	رشته
هویت_حمله	تانسور	float32
توهین	تانسور	float32
زبان	متن	رشته
ناپسند	تانسور	float32
سمیت_شدید	تانسور	float32
متن	متن	رشته
تهدید	تانسور	float32
سمیت	تانسور	float32

مثال‌ها ( tfds.as_dataframe ):

wikipedia_toxicity_subtypes/Multilingual

توضیحات پیکربندی : نظرات موجود در پیکربندی WikipediaToxicityMultilingual در اینجا از آرشیو نظرات صفحه بحث ویکی‌پدیا غیرانگلیسی است که توسط Jigsaw برای سمیت حاشیه‌نویسی شده است، با یک مقدار دودویی (0 یا 1) که نشان می‌دهد آیا اکثر حاشیه‌نویس‌ها متن نظر را سمی ارزیابی کرده‌اند یا خیر. نظرات در این پیکربندی به چندین زبان مختلف (ترکی، ایتالیایی، اسپانیایی، پرتغالی، روسی و فرانسوی) است. این پیکربندی کپی داده‌ای است که برای طبقه‌بندی نظرات سمی چندزبانه Jigsaw در Kaggle منتشر شده است، با مجموعه داده‌های آزمایشی که به test_label‌های منتشر شده پس از مسابقه ملحق شده‌اند.

برای جزئیات بیشتر به مستندات Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data مراجعه کنید.

صفحه اصلی : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
حجم مجموعه داده : 35.13 MiB
تقسیم ها :

شکاف	مثال ها
`'test'`	63,812
`'validation'`	8000

ساختار ویژگی :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})

مستندات ویژگی :

ویژگی	کلاس	نوع D
	FeaturesDict
شناسه	متن	رشته
زبان	متن	رشته
متن	متن	رشته
سمیت	تانسور	float32

مثال‌ها ( tfds.as_dataframe ):