wikipedia_toxicity_subtypes

  • תיאור :

ההערות במערך נתונים זה מגיעות מארכיון של הערות בדף השיחה של ויקיפדיה. אלה סומנו על ידי Jigsaw עבור רעילות, כמו גם (עבור התצורה הראשית) מגוון של תת-סוגי רעילות, כולל רעילות חמורה, גסויות, שפה מאיימת, שפה מעליבה והתקפות זהות. מערך נתונים זה הוא העתק של הנתונים ששוחררו עבור תחרות סיווג הערות רעילות Jigsaw ו-Jigsaw Multilingual Toxic Comments ב-Kaggle, כאשר מערך הבדיקה התמזג עם התוויות test_labels שפורסמו לאחר סיום התחרויות. נתוני המבחן שלא נעשה בהם שימוש לניקוד הושמטו. מערך הנתונים הזה משוחרר תחת CC0, כמו גם טקסט ההערה הבסיסי.

  • קוד מקור : tfds.text.WikipediaToxicitySubtypes

  • גרסאות :

    • 0.2.0 : תכונות מעודכנות לעקביות עם מערך הנתונים של CivilComments.
    • 0.3.0 : נוסף ויקיפדיהToxicityMultilingual config.
    • 0.3.1 (ברירת מחדל): הוסף מזהה ייחודי לכל תגובה. (עבור התצורה הרב-לשונית, אלה ייחודיים רק בתוך כל פיצול.)
  • גודל הורדה : 50.57 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • מפתחות בפיקוח (ראה as_supervised doc ): ('text', 'toxicity')

  • איור ( tfds.show_examples ): לא נתמך.

  • ציטוט :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSubtypes (תצורת ברירת מחדל)

  • תיאור תצורה : ההערות בתצורת WikipediaToxicitySubtypes הן מארכיון של הערות בדף השיחה של ויקיפדיה האנגלית אשר צוינו על ידי Jigsaw עבור רעילות, כמו גם חמש תוויות תת-סוגי רעילות (רעילות חמורה, מגונה, איום, עלבון, התקפה_זהות). תוויות תת-סוג הרעילות והרעילות הן ערכים בינאריים (0 או 1) המציינים אם רוב הכותבים הקצו את התכונה הזו לטקסט ההערה. תצורה זו היא העתק של הנתונים ששוחררו עבור אתגר סיווג ההערות הרעילות של Jigsaw ב-Kaggle, כאשר מערך הנתונים של הבדיקה מצטרף לתוויות test_labels שפורסמו לאחר התחרות, ונתוני הבדיקה שלא נעשה בהם שימוש לניקוד ירדו.

ראה את התיעוד של Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data או https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 לפרטים נוספים.

לְפַצֵל דוגמאות
'test' 63,978
'train' 159,571
  • מבנה תכונה :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תְעוּדַת זֶהוּת טֶקסט חוּט
התקפה_זהות מוֹתֵחַ לצוף32
לְהַעֲלִיב מוֹתֵחַ לצוף32
שפה טֶקסט חוּט
מְגוּנֶה מוֹתֵחַ לצוף32
רעילות_קשה מוֹתֵחַ לצוף32
טֶקסט טֶקסט חוּט
אִיוּם מוֹתֵחַ לצוף32
רַעֲלָנוּת מוֹתֵחַ לצוף32

wikipedia_toxicity_subtypes/Multilingual

  • תיאור תצורה : ההערות ב-WikipediaToxicityMultilingual Config כאן הן מארכיון של הערות בדף השיחה של ויקיפדיה שאינן באנגלית, שהובאו על-ידי Jigsaw לרעילות, עם ערך בינארי (0 או 1) המציין אם רוב הכותבים דירגו את טקסט ההערה כרעיל. ההערות בתצורה זו הן במספר שפות שונות (טורקית, איטלקית, ספרדית, פורטוגזית, רוסית וצרפתית). תצורה זו היא העתק של הנתונים שפורסמו עבור סיווג הערות רעילות רב-לשוניות של Jigsaw על Kaggle, כאשר מערך הנתונים של הבדיקה מצטרף לתוויות test_labels שפורסמו לאחר התחרות.

עיין בתיעוד של Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data לפרטים נוספים.

לְפַצֵל דוגמאות
'test' 63,812
'validation' 8,000
  • מבנה תכונה :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תְעוּדַת זֶהוּת טֶקסט חוּט
שפה טֶקסט חוּט
טֶקסט טֶקסט חוּט
רַעֲלָנוּת מוֹתֵחַ לצוף32