wikipedia_toxicity_subtypes

  • תיאור:

ההערות במערך הנתונים הזה מגיעות מארכיון של הערות דף השיחה בויקיפדיה. אלה זכו להערות על ידי Jigsaw בשל רעילות, כמו גם (עבור התצורה הראשית) מגוון סוגי רעילות, כולל רעילות חמורה, גסות, שפה מאיימת, שפה מעליבה והתקפות זהות. מערך נתונים זה הוא העתק של הנתונים שפורסמו עבור תחרות סיווג ההערות הטוקסיות של Jigsaw ותגובת Jigsaw Multilingual Toxic Classation ב- Kaggle, כאשר מערך הבדיקות התמזג עם תגי test_ שוחררו לאחר תום התחרויות. נתוני הבדיקה שאינם משמשים לציון הושמטו. מערך נתונים זה משוחרר תחת CC0, וכך גם טקסט ההערה הבסיסית.

  • קוד מקור: tfds.text.WikipediaToxicitySubtypes

  • גרסאות:

    • 0.2.0 : תכונות מעודכנות עבור עקביות עם הנתונים CivilComments.
    • 0.3.0 : config נוסף WikipediaToxicityMultilingual.
    • 0.3.1 (ברירת המחדל): נוסף מזהה ייחודי עבור כל תגובה. (עבור התצורה הרב לשונית, אלה ייחודיים רק בתוך כל פיצול).
  • גודל ההורדה: 50.57 MiB

  • Auto-במטמון ( תיעוד ): כן

  • מפתחות השגחה (ראה as_supervised doc ): ('text', 'toxicity')

  • איור ( tfds.show_examples ): לא נתמך.

  • ציטוט:

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes / EnglishSubtypes (ברירת המחדל config)

  • תיאור Config: הדברים הכתובים WikipediaToxicitySubtypes config הם מהארכיון של הערות בדף השיחה אנגלית ויקיפדיה אשר שסומנו על ידי Jigsaw עבור רעילות, כמו גם חמש התוויות תת רעילות (רעילות חמורות, מגונה, איום, עלבון, identity_attack). תוויות המשנה של הרעילות והרעילות הן ערכים בינאריים (0 או 1) המציינים אם רוב המבקרים הקצו את התכונה לטקסט ההערה. תצורה זו היא העתק של הנתונים שפורסמו לאתגר סיווג ההערה הטוקסי של Jigsaw ב- Kaggle, כאשר מאגר הנתונים של הבדיקות הצטרף עם test_labels שפורסם לאחר התחרות, ונתוני הבדיקה שאינם משמשים לציון ירדו.

עיין בתיעוד Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data או https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 לפרטים נוספים.

לְפַצֵל דוגמאות
'test' 63,978
'train' 159,571
  • מאפיינים:
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'language': Text(shape=(), dtype=tf.string),
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})

wikipedia_toxicity_subtypes / רב

  • תיאור Config: הדברים הכתובים WikipediaToxicityMultilingual config הנה מהארכיון של הערות בדף השיחה הלא-אנגלית ויקיפדיה המבואר על ידי Jigsaw עבור רעילות, עם ערך בינארי (0 או 1) המציינת אם רוב annotators דורג הטקסט תגובה כמו רעילים. ההערות בתצורה זו הן במספר שפות שונות (טורקית, איטלקית, ספרדית, פורטוגזית, רוסית וצרפתית). תצורה זו היא העתק של הנתונים שפורסמו עבור סיווג הערות הרעילות הטובות לשפות Jigsaw ב- Kaggle, כאשר מערך הבדיקות מצטרף ל test_labels שפורסמו לאחר התחרות.

עיין בתיעוד Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data לפרטים נוספים.

לְפַצֵל דוגמאות
'test' 63,812
'validation' 8,000
  • מאפיינים:
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'language': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'toxicity': tf.float32,
})