הערות_אזרחיות

  • תיאור :

גרסה זו של ערכת הנתונים של CivilComments מספקת גישה לשבע התוויות העיקריות שצוינו על ידי עובדי המונים, הרעילות ותגיות אחרות הן ערך בין 0 ל-1 המציין את חלק הכותבים שהקצו את התכונות הללו לטקסט ההערה.

התגים האחרים זמינים רק עבור חלק קטן מדוגמאות הקלט. כרגע מתעלמים מהם עבור מערך הנתונים הראשי; ערכת CivilCommentsIdentities כוללת את התוויות הללו, אך מורכבת רק מתת-קבוצת הנתונים שאיתן. התכונות האחרות שהיו חלק מהמהדורה המקורית של CivilComments נכללות רק בנתונים הגולמיים. עיין בתיעוד של Kaggle לפרטים נוספים על התכונות הזמינות.

ההערות במערך נתונים זה מגיעות מארכיון של פלטפורמת Civil Comments, תוסף תגובות לאתרי חדשות עצמאיים. הערות ציבוריות אלו נוצרו בין השנים 2015 - 2017 והופיעו בכ-50 אתרי חדשות באנגלית ברחבי העולם. כאשר Civil Comments נסגרה בשנת 2017, הם בחרו להפוך את ההערות הציבוריות לזמינות בארכיון פתוח מתמשך כדי לאפשר מחקר עתידי. הנתונים המקוריים, שפורסמו ב- figshare, כוללים את טקסט ההערה הציבורי, כמה מטא נתונים משויכים כגון מזהי מאמרים, חותמות זמן ותוויות "אזרחיות" שנוצרו על ידי מגיבים, אך אינם כוללים מזהי משתמש. Jigsaw הרחיב את מערך הנתונים על ידי הוספת תוויות נוספות לרעילות, אזכורי זהות, כמו גם פגיעה סמויה. ערכת נתונים זו היא העתק מדויק של הנתונים שפורסמו עבור אתגר ההטיה הבלתי מכוונת של Jigsaw Unintended in Toxicity Classification Kaggle. מערך הנתונים הזה משוחרר תחת CC0, כמו גם טקסט ההערה הבסיסי.

עבור הערות שיש להן parent_id גם בנתוני ההערות האזרחיות, הטקסט של ההערה הקודמת מסופק כתכונה "parent_text". שימו לב שהפיצולים בוצעו ללא התחשבות במידע זה, כך ששימוש בהערות קודמות עלול לדלוף מידע מסוים. לכותבים לא הייתה גישה לטקסט האב בעת יצירת התוויות.

  • דף הבית : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • קוד מקור : tfds.text.CivilComments

  • גרסאות :

    • 1.0.0 : מהדורה מלאה ראשונית.
    • 1.0.1 : הוסף מזהה ייחודי לכל תגובה.
    • 1.1.0 : נוספה תצורת CivilCommentsCovert.
    • 1.1.1 : נוספה תצורת CivilCommentsCovert עם סכום בדיקה נכון.
    • 1.1.2 : ציטוט נפרד נוסף עבור מערך הנתונים של CivilCommentsCovert.
    • 1.1.3 : סוגי מזהה מתוקנים מ-float ל-string.
    • 1.2.0 : הוסף תכונות טקסט של טווחים רעילים, הקשר ותגובות הורה.
    • 1.2.1 : תקן עיצוב שגוי בפיצולי הקשר.
    • 1.2.2 : עדכון לשקף הקשר רק עם פיצול רכבת.
    • 1.2.3 (ברירת מחדל) : הוסף אזהרה ל-CivilCommentsCovert כאשר אנו מתקנים בעיית נתונים.
  • גודל הורדה : 427.41 MiB

  • איור ( tfds.show_examples ): לא נתמך.

civil_comments/CivilComments (תצורת ברירת המחדל)

  • תיאור תצורה : ה-CivilComments שהוגדר כאן כולל את כל הנתונים, אבל רק את שבע התוויות הבסיסיות (רעילות, רעילות חמורה, מגונה, איום, עלבון, התקפה_זהות ומיני_מפורש).

  • גודל מערך נתונים : 1.39 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 97,320
'train' 1,804,874
'validation' 97,320
  • מבנה תכונה :
FeaturesDict({
    'article_id': tf.int32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מאמר_מזהה מוֹתֵחַ tf.int32
תְעוּדַת זֶהוּת מוֹתֵחַ tf.string
התקפה_זהות מוֹתֵחַ tf.float32
לְהַעֲלִיב מוֹתֵחַ tf.float32
מְגוּנֶה מוֹתֵחַ tf.float32
parent_id מוֹתֵחַ tf.int32
parent_text טֶקסט tf.string
רעילות_קשה מוֹתֵחַ tf.float32
מינית_מפורשת מוֹתֵחַ tf.float32
טֶקסט טֶקסט tf.string
אִיוּם מוֹתֵחַ tf.float32
רַעֲלָנוּת מוֹתֵחַ tf.float32
  • ציטוט :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsIdentities

  • תיאור תצורה : ה-CivilCommentsIdentities שהוגדר כאן כולל קבוצה מורחבת של תוויות זהות בנוסף לשבע התוויות הבסיסיות. עם זאת, הוא כולל רק את קבוצת המשנה (בערך רבע) מהנתונים עם כל התכונות הללו.

  • גודל ערכת נתונים: 622.02 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 21,577
'train' 405,130
'validation' 21,293
  • מבנה תכונה :
FeaturesDict({
    'article_id': tf.int32,
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מאמר_מזהה מוֹתֵחַ tf.int32
אסיה מוֹתֵחַ tf.float32
אָתֵאִיסְט מוֹתֵחַ tf.float32
דוּ מִינִי מוֹתֵחַ tf.float32
שָׁחוֹר מוֹתֵחַ tf.float32
בודהיסטית מוֹתֵחַ tf.float32
נוצרי מוֹתֵחַ tf.float32
נְקֵבָה מוֹתֵחַ tf.float32
הטרוסקסואל מוֹתֵחַ tf.float32
הינדי מוֹתֵחַ tf.float32
הומוסקסואל_הומו_או_לסבית מוֹתֵחַ tf.float32
תְעוּדַת זֶהוּת מוֹתֵחַ tf.string
התקפה_זהות מוֹתֵחַ tf.float32
לְהַעֲלִיב מוֹתֵחַ tf.float32
לקות_שכלית_או_למידה מוֹתֵחַ tf.float32
יהודי מוֹתֵחַ tf.float32
לטינו מוֹתֵחַ tf.float32
זָכָר מוֹתֵחַ tf.float32
מוסלמי מוֹתֵחַ tf.float32
מְגוּנֶה מוֹתֵחַ tf.float32
נכות_אחרת מוֹתֵחַ tf.float32
מגדר אחר מוֹתֵחַ tf.float32
אחר_גזע_או_אתניות מוֹתֵחַ tf.float32
דת_אחרת מוֹתֵחַ tf.float32
נטייה_מינית_אחרת מוֹתֵחַ tf.float32
parent_id מוֹתֵחַ tf.int32
parent_text טֶקסט tf.string
מוגבלות פיזית מוֹתֵחַ tf.float32
מחלת_נפש פסיכיאטרית מוֹתֵחַ tf.float32
רעילות_קשה מוֹתֵחַ tf.float32
מינית_מפורשת מוֹתֵחַ tf.float32
טֶקסט טֶקסט tf.string
אִיוּם מוֹתֵחַ tf.float32
רַעֲלָנוּת מוֹתֵחַ tf.float32
טרנסג'נדר מוֹתֵחַ tf.float32
לבן מוֹתֵחַ tf.float32
  • ציטוט :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsCovert

  • תיאור תצורה : אזהרה: קיימת בעיית איכות נתונים פוטנציאלית ב-CivilCommentsCovert שאנו עובדים על תיקון (06/28/22); הנתונים הבסיסיים עשויים להשתנות!

ערכת CivilCommentsCovert היא תת-קבוצה של CivilCommentsIdentities עם ~20% מפיצולי הרכבת והניסויים מוזכרים יותר עבור פגיעה סמויה, בנוסף לתוויות הרעילות והזהות. המדרגים התבקשו לסווג הערות כאחת של הערות מפורשות, מרומזות, לא, או לא בטוחות אם הן פוגעניות, וכן האם היא מכילה סוגים שונים של פגיעה סמויה. הליך ההערה המלא מפורט במאמר שייצא בקרוב בכתובת https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • גודל מערך נתונים : 94.12 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 2,455
'train' 48,074
  • מבנה תכונה :
FeaturesDict({
    'article_id': tf.int32,
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'covert_emoticons_emojis': tf.float32,
    'covert_humor': tf.float32,
    'covert_masked_harm': tf.float32,
    'covert_microaggression': tf.float32,
    'covert_obfuscation': tf.float32,
    'covert_political': tf.float32,
    'covert_sarcasm': tf.float32,
    'explicitly_offensive': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'implicitly_offensive': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'not_offensive': tf.float32,
    'not_sure_offensive': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מאמר_מזהה מוֹתֵחַ tf.int32
אסיה מוֹתֵחַ tf.float32
אָתֵאִיסְט מוֹתֵחַ tf.float32
דוּ מִינִי מוֹתֵחַ tf.float32
שָׁחוֹר מוֹתֵחַ tf.float32
בודהיסטית מוֹתֵחַ tf.float32
נוצרי מוֹתֵחַ tf.float32
אמוג'י_סמויים_סמויים מוֹתֵחַ tf.float32
הומור_סמוי מוֹתֵחַ tf.float32
פגיעה_מסווה_סמויה מוֹתֵחַ tf.float32
מיקרו-אגרסיביות_סמויה מוֹתֵחַ tf.float32
ערפול_סמויה מוֹתֵחַ tf.float32
סמוי_פוליטי מוֹתֵחַ tf.float32
סרקזם_סמוי מוֹתֵחַ tf.float32
בפירוש_פוגעני מוֹתֵחַ tf.float32
נְקֵבָה מוֹתֵחַ tf.float32
הטרוסקסואל מוֹתֵחַ tf.float32
הינדי מוֹתֵחַ tf.float32
הומוסקסואל_הומו_או_לסבית מוֹתֵחַ tf.float32
תְעוּדַת זֶהוּת מוֹתֵחַ tf.string
התקפה_זהות מוֹתֵחַ tf.float32
במרומז_פוגעני מוֹתֵחַ tf.float32
לְהַעֲלִיב מוֹתֵחַ tf.float32
לקות_שכלית_או_למידה מוֹתֵחַ tf.float32
יהודי מוֹתֵחַ tf.float32
לטינו מוֹתֵחַ tf.float32
זָכָר מוֹתֵחַ tf.float32
מוסלמי מוֹתֵחַ tf.float32
לא_פוגעני מוֹתֵחַ tf.float32
לא_בטוח_פוגע מוֹתֵחַ tf.float32
מְגוּנֶה מוֹתֵחַ tf.float32
נכות_אחרת מוֹתֵחַ tf.float32
מגדר אחר מוֹתֵחַ tf.float32
אחר_גזע_או_אתניות מוֹתֵחַ tf.float32
דת_אחרת מוֹתֵחַ tf.float32
נטייה_מינית_אחרת מוֹתֵחַ tf.float32
parent_id מוֹתֵחַ tf.int32
parent_text טֶקסט tf.string
מוגבלות פיזית מוֹתֵחַ tf.float32
מחלת_נפש פסיכיאטרית מוֹתֵחַ tf.float32
רעילות_קשה מוֹתֵחַ tf.float32
מינית_מפורשת מוֹתֵחַ tf.float32
טֶקסט טֶקסט tf.string
אִיוּם מוֹתֵחַ tf.float32
רַעֲלָנוּת מוֹתֵחַ tf.float32
טרנסג'נדר מוֹתֵחַ tf.float32
לבן מוֹתֵחַ tf.float32
  • ציטוט :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

civil_comments/CivilCommentsToxicSpans

  • תיאור תצורה : ה-CivilComments Toxic Spans הם תת-קבוצה של CivilComments המסומנת ברמת הטווח - המדדים של כל גבולות התווים (נקודות קוד Unicode) שתויגו כרעילים על ידי רוב המעריכים מוחזרים בתכונת 'מרווחים'.

  • גודל מערך נתונים : 5.03 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 2,000
'train' 7,939
'validation' 682
  • מבנה תכונה :
FeaturesDict({
    'article_id': tf.int32,
    'id': tf.string,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'spans': Tensor(shape=(None,), dtype=tf.int32),
    'text': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מאמר_מזהה מוֹתֵחַ tf.int32
תְעוּדַת זֶהוּת מוֹתֵחַ tf.string
parent_id מוֹתֵחַ tf.int32
parent_text טֶקסט tf.string
משתרעים מוֹתֵחַ (אף אחד,) tf.int32
טֶקסט טֶקסט tf.string
  • ציטוט :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

civil_comments/CivilCommentsInContext

  • תיאור תצורה : ה-CivilComments בהקשר הוא תת-קבוצה של CivilComments שסומנה על-ידי הפיכת ה-parent_text לזמינה למתייגים. הוא כולל תכונת הקשר_טוקסיות.

  • גודל ערכת נתונים : 8.90 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 9,969
  • מבנה תכונה :
FeaturesDict({
    'article_id': tf.int32,
    'contextual_toxicity': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מאמר_מזהה מוֹתֵחַ tf.int32
רעילות_הקשרית מוֹתֵחַ tf.float32
תְעוּדַת זֶהוּת מוֹתֵחַ tf.string
התקפה_זהות מוֹתֵחַ tf.float32
לְהַעֲלִיב מוֹתֵחַ tf.float32
מְגוּנֶה מוֹתֵחַ tf.float32
parent_id מוֹתֵחַ tf.int32
parent_text טֶקסט tf.string
רעילות_קשה מוֹתֵחַ tf.float32
מינית_מפורשת מוֹתֵחַ tf.float32
טֶקסט טֶקסט tf.string
אִיוּם מוֹתֵחַ tf.float32
רַעֲלָנוּת מוֹתֵחַ tf.float32
  • ציטוט :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}