הערות_אזרחיות

  • תיאור :

גרסה זו של ערכת הנתונים של CivilComments מספקת גישה לשבע התוויות העיקריות שצוינו על ידי עובדי המונים, הרעילות ותגיות אחרות הן ערך בין 0 ל-1 המציין את חלק הכותבים שהקצו את התכונות הללו לטקסט ההערה.

התגים האחרים זמינים רק עבור חלק קטן מדוגמאות הקלט. כרגע מתעלמים מהם עבור מערך הנתונים הראשי; ערכת CivilCommentsIdentities כוללת את התוויות הללו, אך מורכבת רק מתת-קבוצת הנתונים שאיתן. התכונות האחרות שהיו חלק מהמהדורה המקורית של CivilComments נכללות רק בנתונים הגולמיים. עיין בתיעוד של Kaggle לפרטים נוספים על התכונות הזמינות.

ההערות במערך נתונים זה מגיעות מארכיון של פלטפורמת Civil Comments, תוסף תגובות לאתרי חדשות עצמאיים. הערות ציבוריות אלו נוצרו בין השנים 2015 - 2017 והופיעו בכ-50 אתרי חדשות באנגלית ברחבי העולם. כאשר Civil Comments נסגרה בשנת 2017, הם בחרו להפוך את ההערות הציבוריות לזמינות בארכיון פתוח מתמשך כדי לאפשר מחקר עתידי. הנתונים המקוריים, שפורסמו ב- figshare, כוללים את טקסט ההערה הציבורי, כמה מטא נתונים משויכים כגון מזהי מאמרים, מזהי פרסום, חותמות זמן ותוויות "אזרחיות" שנוצרו על ידי מגיבים, אך אינם כוללים מזהי משתמשים. Jigsaw הרחיב את מערך הנתונים על ידי הוספת תוויות נוספות לרעילות, אזכורי זהות, כמו גם פגיעה סמויה. ערכת נתונים זו היא העתק מדויק של הנתונים שפורסמו עבור אתגר ההטיה הבלתי מכוונת של Jigsaw Unintended in Toxicity Classification Kaggle. מערך הנתונים הזה משוחרר תחת CC0, כמו גם טקסט ההערה הבסיסי.

עבור הערות שיש להן parent_id גם בנתוני ההערות האזרחיות, הטקסט של ההערה הקודמת מסופק כתכונה "parent_text". שימו לב שהפיצולים בוצעו ללא התחשבות במידע זה, כך ששימוש בהערות קודמות עלול לדלוף מידע מסוים. לכותבים לא הייתה גישה לטקסט האב בעת יצירת התוויות.

  • דף הבית : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • קוד מקור : tfds.text.CivilComments

  • גרסאות :

    • 1.0.0 : מהדורה מלאה ראשונית.
    • 1.0.1 : הוסף מזהה ייחודי לכל תגובה.
    • 1.1.0 : נוספה תצורת CivilCommentsCovert.
    • 1.1.1 : נוספה תצורת CivilCommentsCovert עם סכום בדיקה נכון.
    • 1.1.2 : ציטוט נפרד נוסף עבור מערך הנתונים של CivilCommentsCovert.
    • 1.1.3 : סוגי מזהה מתוקנים מ-float ל-string.
    • 1.2.0 : הוסף תכונות טקסט של טווחים רעילים, הקשר ותגובות הורה.
    • 1.2.1 : תקן עיצוב שגוי בפיצולי הקשר.
    • 1.2.2 : עדכון לשקף הקשר רק עם פיצול רכבת.
    • 1.2.3 : הוסף אזהרה ל-CivilCommentsCovert כאשר אנו מתקנים בעיית נתונים.
    • 1.2.4 (ברירת מחדל): הוסף מזהי פרסום וחותמות זמן של הערות.
  • גודל הורדה : 427.41 MiB

  • איור ( tfds.show_examples ): לא נתמך.

civil_comments/CivilComments (תצורת ברירת המחדל)

  • תיאור תצורה : ה-CivilComments שהוגדר כאן כולל את כל הנתונים, אבל רק את שבע התוויות הבסיסיות (רעילות, רעילות חמורה, מגונה, איום, עלבון, התקפה_זהות ומיני_מפורש).

  • גודל מערך נתונים : 1.54 GiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 97,320
'train' 1,804,874
'validation' 97,320
  • מבנה תכונה :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מאמר_מזהה מוֹתֵחַ int32
תאריך יצירה מוֹתֵחַ חוּט
תְעוּדַת זֶהוּת מוֹתֵחַ חוּט
התקפה_זהות מוֹתֵחַ לצוף32
לְהַעֲלִיב מוֹתֵחַ לצוף32
מְגוּנֶה מוֹתֵחַ לצוף32
parent_id מוֹתֵחַ int32
parent_text טֶקסט חוּט
publication_id מוֹתֵחַ חוּט
רעילות_קשה מוֹתֵחַ לצוף32
מינית_מפורשת מוֹתֵחַ לצוף32
טֶקסט טֶקסט חוּט
אִיוּם מוֹתֵחַ לצוף32
רַעֲלָנוּת מוֹתֵחַ לצוף32
  • ציטוט :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsIdentities

  • תיאור תצורה : ה-CivilCommentsIdentities שהוגדר כאן כולל קבוצה מורחבת של תוויות זהות בנוסף לשבע התוויות הבסיסיות. עם זאת, הוא כולל רק את קבוצת המשנה (בערך רבע) מהנתונים עם כל התכונות הללו.

  • גודל ערכת נתונים : 654.97 MiB

  • שמירה אוטומטית במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 21,577
'train' 405,130
'validation' 21,293
  • מבנה תכונה :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מאמר_מזהה מוֹתֵחַ int32
אסיה מוֹתֵחַ לצוף32
אָתֵאִיסְט מוֹתֵחַ לצוף32
דוּ מִינִי מוֹתֵחַ לצוף32
שָׁחוֹר מוֹתֵחַ לצוף32
בודהיסטית מוֹתֵחַ לצוף32
נוצרי מוֹתֵחַ לצוף32
תאריך יצירה מוֹתֵחַ חוּט
נְקֵבָה מוֹתֵחַ לצוף32
הטרוסקסואל מוֹתֵחַ לצוף32
הינדי מוֹתֵחַ לצוף32
הומוסקסואל_הומו_או_לסבית מוֹתֵחַ לצוף32
תְעוּדַת זֶהוּת מוֹתֵחַ חוּט
התקפה_זהות מוֹתֵחַ לצוף32
לְהַעֲלִיב מוֹתֵחַ לצוף32
לקות_שכלית_או_למידה מוֹתֵחַ לצוף32
יהודי מוֹתֵחַ לצוף32
לטינו מוֹתֵחַ לצוף32
זָכָר מוֹתֵחַ לצוף32
מוסלמי מוֹתֵחַ לצוף32
מְגוּנֶה מוֹתֵחַ לצוף32
נכות_אחרת מוֹתֵחַ לצוף32
מגדר אחר מוֹתֵחַ לצוף32
אחר_גזע_או_אתניות מוֹתֵחַ לצוף32
דת_אחרת מוֹתֵחַ לצוף32
נטייה_מינית_אחרת מוֹתֵחַ לצוף32
parent_id מוֹתֵחַ int32
parent_text טֶקסט חוּט
מוגבלות פיזית מוֹתֵחַ לצוף32
מחלת_נפש פסיכיאטרית מוֹתֵחַ לצוף32
publication_id מוֹתֵחַ חוּט
רעילות_קשה מוֹתֵחַ לצוף32
מינית_מפורשת מוֹתֵחַ לצוף32
טֶקסט טֶקסט חוּט
אִיוּם מוֹתֵחַ לצוף32
רַעֲלָנוּת מוֹתֵחַ לצוף32
טרנסג'נדר מוֹתֵחַ לצוף32
לבן מוֹתֵחַ לצוף32
  • ציטוט :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsCovert

  • תיאור תצורה : אזהרה: קיימת בעיית איכות נתונים פוטנציאלית ב-CivilCommentsCovert שאנו עובדים על תיקון (06/28/22); הנתונים הבסיסיים עשויים להשתנות!

ערכת CivilCommentsCovert היא תת-קבוצה של CivilCommentsIdentities עם ~20% מפיצולי הרכבת והניסויים מוזכרים יותר עבור פגיעה סמויה, בנוסף לתוויות הרעילות והזהות. המדרגים התבקשו לסווג הערות כאחת של הערות מפורשות, מרומזות, לא, או לא בטוחות אם הן פוגעניות, וכן האם היא מכילה סוגים שונים של פגיעה סמויה. הליך ההערה המלא מפורט במאמר שייצא בקרוב בכתובת https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • גודל ערכת נתונים : 97.83 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 2,455
'train' 48,074
  • מבנה תכונה :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מאמר_מזהה מוֹתֵחַ int32
אסיה מוֹתֵחַ לצוף32
אָתֵאִיסְט מוֹתֵחַ לצוף32
דוּ מִינִי מוֹתֵחַ לצוף32
שָׁחוֹר מוֹתֵחַ לצוף32
בודהיסטית מוֹתֵחַ לצוף32
נוצרי מוֹתֵחַ לצוף32
אמוג'י_סמויים_סמויים מוֹתֵחַ לצוף32
הומור_סמוי מוֹתֵחַ לצוף32
פגיעה_מסווה_סמויה מוֹתֵחַ לצוף32
מיקרו-אגרסיביות_סמויה מוֹתֵחַ לצוף32
ערפול_סמויה מוֹתֵחַ לצוף32
סמוי_פוליטי מוֹתֵחַ לצוף32
סרקזם_סמוי מוֹתֵחַ לצוף32
תאריך יצירה מוֹתֵחַ חוּט
בפירוש_פוגעני מוֹתֵחַ לצוף32
נְקֵבָה מוֹתֵחַ לצוף32
הטרוסקסואל מוֹתֵחַ לצוף32
הינדי מוֹתֵחַ לצוף32
הומוסקסואל_הומו_או_לסבית מוֹתֵחַ לצוף32
תְעוּדַת זֶהוּת מוֹתֵחַ חוּט
התקפה_זהות מוֹתֵחַ לצוף32
במרומז_פוגעני מוֹתֵחַ לצוף32
לְהַעֲלִיב מוֹתֵחַ לצוף32
לקות_שכלית_או_למידה מוֹתֵחַ לצוף32
יהודי מוֹתֵחַ לצוף32
לטינו מוֹתֵחַ לצוף32
זָכָר מוֹתֵחַ לצוף32
מוסלמי מוֹתֵחַ לצוף32
לא_פוגעני מוֹתֵחַ לצוף32
לא_בטוח_פוגע מוֹתֵחַ לצוף32
מְגוּנֶה מוֹתֵחַ לצוף32
נכות_אחרת מוֹתֵחַ לצוף32
מגדר אחר מוֹתֵחַ לצוף32
אחר_גזע_או_אתניות מוֹתֵחַ לצוף32
דת_אחרת מוֹתֵחַ לצוף32
נטייה_מינית_אחרת מוֹתֵחַ לצוף32
parent_id מוֹתֵחַ int32
parent_text טֶקסט חוּט
מוגבלות פיזית מוֹתֵחַ לצוף32
מחלת_נפש פסיכיאטרית מוֹתֵחַ לצוף32
publication_id מוֹתֵחַ חוּט
רעילות_קשה מוֹתֵחַ לצוף32
מינית_מפורשת מוֹתֵחַ לצוף32
טֶקסט טֶקסט חוּט
אִיוּם מוֹתֵחַ לצוף32
רַעֲלָנוּת מוֹתֵחַ לצוף32
טרנסג'נדר מוֹתֵחַ לצוף32
לבן מוֹתֵחַ לצוף32
  • ציטוט :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

civil_comments/CivilCommentsToxicSpans

  • תיאור תצורה : ה-CivilComments Toxic Spans הם תת-קבוצה של CivilComments המסומנת ברמת הטווח - המדדים של כל גבולות התווים (נקודות קוד Unicode) שתויגו כרעילים על ידי רוב המעריכים מוחזרים בתכונת 'מרווחים'.

  • גודל מערך נתונים : 5.81 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 2,000
'train' 7,939
'validation' 682
  • מבנה תכונה :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מאמר_מזהה מוֹתֵחַ int32
תאריך יצירה מוֹתֵחַ חוּט
תְעוּדַת זֶהוּת מוֹתֵחַ חוּט
parent_id מוֹתֵחַ int32
parent_text טֶקסט חוּט
publication_id מוֹתֵחַ חוּט
משתרעים מוֹתֵחַ (אף אחד,) int32
טֶקסט טֶקסט חוּט
  • ציטוט :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

civil_comments/CivilCommentsInContext

  • תיאור תצורה : ה-CivilComments בהקשר הוא תת-קבוצה של CivilComments שסומנה על-ידי הפיכת ה-parent_text לזמינה למתייגים. הוא כולל תכונת הקשר_טוקסיות.

  • גודל ערכת נתונים : 9.63 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'train' 9,969
  • מבנה תכונה :
FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מאמר_מזהה מוֹתֵחַ int32
רעילות_הקשרית מוֹתֵחַ לצוף32
תאריך יצירה מוֹתֵחַ חוּט
תְעוּדַת זֶהוּת מוֹתֵחַ חוּט
התקפה_זהות מוֹתֵחַ לצוף32
לְהַעֲלִיב מוֹתֵחַ לצוף32
מְגוּנֶה מוֹתֵחַ לצוף32
parent_id מוֹתֵחַ int32
parent_text טֶקסט חוּט
publication_id מוֹתֵחַ חוּט
רעילות_קשה מוֹתֵחַ לצוף32
מינית_מפורשת מוֹתֵחַ לצוף32
טֶקסט טֶקסט חוּט
אִיוּם מוֹתֵחַ לצוף32
רַעֲלָנוּת מוֹתֵחַ לצוף32
  • ציטוט :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}