ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

Civil_comments

  • คำอธิบาย :

ชุดข้อมูล CivilComments เวอร์ชันนี้ให้การเข้าถึงป้ายกำกับหลักเจ็ดรายการที่มีคำอธิบายประกอบโดยกลุ่มคนทำงานจำนวนมาก ความเป็นพิษและแท็กอื่นๆ เป็นค่าระหว่าง 0 ถึง 1 ซึ่งระบุเศษส่วนของคำอธิบายประกอบที่กำหนดแอตทริบิวต์เหล่านี้ให้กับข้อความความคิดเห็น

แท็กอื่นๆ จะใช้ได้เพียงเศษเสี้ยวของตัวอย่างอินพุตเท่านั้น ขณะนี้ระบบละเว้นสำหรับชุดข้อมูลหลัก ชุด CivilCommentsIdentities ประกอบด้วยป้ายกำกับเหล่านั้น แต่ประกอบด้วยชุดย่อยของข้อมูลเท่านั้น คุณลักษณะอื่น ๆ ที่เป็นส่วนหนึ่งของการเผยแพร่ CivilComments ดั้งเดิมจะรวมอยู่ในข้อมูลดิบเท่านั้น ดูเอกสาร Kaggle สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับคุณสมบัติที่มี

ความคิดเห็นในชุดข้อมูลนี้มาจากที่เก็บถาวรของแพลตฟอร์ม Civil Comments ซึ่งเป็นปลั๊กอินสำหรับแสดงความคิดเห็นสำหรับเว็บไซต์ข่าวอิสระ ความคิดเห็นสาธารณะเหล่านี้สร้างขึ้นตั้งแต่ปี 2015 - 2017 และปรากฏบนเว็บไซต์ข่าวภาษาอังกฤษประมาณ 50 แห่งทั่วโลก เมื่อ Civil Comments ปิดตัวลงในปี 2560 พวกเขาเลือกที่จะให้ความคิดเห็นสาธารณะอยู่ในที่เก็บถาวรแบบเปิดที่ยั่งยืนเพื่อเปิดใช้งานการวิจัยในอนาคต ข้อมูลดั้งเดิมที่เผยแพร่บน figshare รวมถึงข้อความความคิดเห็นสาธารณะ ข้อมูลเมตาที่เกี่ยวข้องบางอย่าง เช่น รหัสบทความ การประทับเวลา และป้ายกำกับ "ความเป็นพลเมือง" ที่สร้างโดยผู้แสดงความคิดเห็น แต่ไม่รวมรหัสผู้ใช้ จิ๊กซอว์ขยายชุดข้อมูลนี้โดยเพิ่มป้ายกำกับเพิ่มเติมสำหรับความเป็นพิษ การระบุตัวตน ตลอดจนการแอบแฝง ชุดข้อมูลนี้เป็นแบบจำลองที่แน่นอนของข้อมูลที่เผยแพร่สำหรับ Jigsaw Unintended Bias in Toxicity Classification Kaggle ชุดข้อมูลนี้เผยแพร่ภายใต้ CC0 เช่นเดียวกับข้อความความคิดเห็นพื้นฐาน

สำหรับความคิดเห็นที่มี parent_id อยู่ในข้อมูลความคิดเห็นทางแพ่ง ข้อความของความคิดเห็นก่อนหน้านี้จะระบุเป็นคุณลักษณะ "parent_text" โปรดทราบว่ามีการแยกส่วนโดยไม่คำนึงถึงข้อมูลนี้ ดังนั้นการใช้ความคิดเห็นก่อนหน้านี้อาจทำให้ข้อมูลบางส่วนรั่วไหล คำอธิบายประกอบไม่มีสิทธิ์เข้าถึงข้อความหลักเมื่อสร้างป้ายกำกับ

  • หน้าแรก : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • ซอร์สโค้ด : tfds.text.CivilComments

  • รุ่น :

    • 1.0.0 : เปิดตัวเต็มครั้งแรก
    • 1.0.1 : เพิ่มรหัสเฉพาะสำหรับแต่ละความคิดเห็น
    • 1.1.0 : เพิ่มการตั้งค่า CivilCommentsCovert
    • 1.1.1 : เพิ่มการตั้งค่า CivilCommentsCovert ด้วยการตรวจสอบที่ถูกต้อง
    • 1.1.2 : เพิ่มการอ้างอิงแยกต่างหากสำหรับชุดข้อมูล CivilCommentsCovert
    • 1.1.3 : แก้ไขประเภท id จาก float เป็น string
    • 1.2.0 (ค่าเริ่มต้น) : เพิ่มช่วงที่เป็นพิษ บริบท และคุณลักษณะข้อความความคิดเห็นของผู้ปกครอง
  • ขนาดดาวน์โหลด : Unknown size

  • ขนาดชุดข้อมูล : Unknown size

  • แคชอัตโนมัติ ( เอกสาร ): Unknown

  • แยก :

แยก ตัวอย่าง

Civil_comments/CivilComments (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า : CivilComments ที่ตั้งไว้ที่นี่มีข้อมูลทั้งหมด แต่มีเพียงเจ็ดป้ายกำกับพื้นฐานเท่านั้น (ความเป็นพิษ, พิษร้ายแรง, ลามกอนาจาร, การคุกคาม, ดูถูก, identity_attack และ sexual_explicit)

  • คุณสมบัติ :

FeaturesDict({
    'article_id': tf.int32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('text', 'toxicity')

  • อ้างอิง :

@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/CivilCommentsIdentities

  • คำอธิบาย การกำหนดค่า : CivilCommentsIdentities ที่ตั้งไว้ที่นี่ประกอบด้วยชุดป้ายกำกับข้อมูลประจำตัวเพิ่มเติมนอกเหนือจากป้ายกำกับพื้นฐานทั้งเจ็ด อย่างไรก็ตาม จะรวมเฉพาะส่วนย่อย (ประมาณหนึ่งในสี่) ของข้อมูลที่มีคุณสมบัติทั้งหมดเหล่านี้

  • คุณสมบัติ :

FeaturesDict({
    'article_id': tf.int32,
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('text', 'toxicity')

  • อ้างอิง :

@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/CivilCommentsCovert

  • คำอธิบาย การกำหนดค่า : ชุด CivilCommentsCovert เป็นชุดย่อยของ CivilCommentsIdentities ที่มี ~20% ของรถไฟและการแยกการทดสอบที่มีคำอธิบายประกอบเพิ่มเติมสำหรับการล่วงละเมิดที่แอบแฝง นอกเหนือจากป้ายกำกับความเป็นพิษและการระบุตัวตน ผู้ประเมินถูกขอให้จัดหมวดหมู่ความคิดเห็นเป็นความคิดเห็นโดยชัดแจ้ง โดยปริยาย ไม่ใช่ หรือไม่แน่ใจว่าเป็นการล่วงละเมิดหรือไม่ รวมทั้งมีการแสดงความไม่พอใจแบบแอบแฝงประเภทต่างๆ หรือไม่ ขั้นตอนคำอธิบายประกอบแบบเต็มมีรายละเอียดอยู่ในเอกสารฉบับต่อไปที่ https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • คุณสมบัติ :

FeaturesDict({
    'article_id': tf.int32,
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'covert_emoticons_emojis': tf.float32,
    'covert_humor': tf.float32,
    'covert_masked_harm': tf.float32,
    'covert_microaggression': tf.float32,
    'covert_obfuscation': tf.float32,
    'covert_political': tf.float32,
    'covert_sarcasm': tf.float32,
    'explicitly_offensive': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'implicitly_offensive': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'not_offensive': tf.float32,
    'not_sure_offensive': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('text', 'toxicity')

  • อ้างอิง :

@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

Civil_comments/CivilCommentsToxicSpans

  • คำอธิบาย การกำหนดค่า : CivilComments Toxic Spans เป็นชุดย่อยของ CivilComments ที่ติดป้ายกำกับที่ระดับช่วง - ดัชนีของขอบเขตอักขระทั้งหมด (unicode codepoints) ที่แท็กว่าเป็นพิษโดยคำอธิบายประกอบส่วนใหญ่จะถูกส่งคืนในลักษณะ "ช่วง"

  • คุณสมบัติ :

FeaturesDict({
    'article_id': tf.int32,
    'id': tf.string,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'spans': Tensor(shape=(None,), dtype=tf.int32),
    'text': Text(shape=(), dtype=tf.string),
})
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('text', 'spans')

  • อ้างอิง :

@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

Civil_comments/CivilCommentsInContext

  • คำอธิบาย การกำหนดค่า : CivilComments Toxic Spans เป็นส่วนย่อยของ CivilComments ที่ติดป้ายกำกับโดยทำให้ parent_text พร้อมใช้งานสำหรับผู้ติดป้ายกำกับ ประกอบด้วยคุณลักษณะ Contextual_toxicity

  • คุณสมบัติ :

FeaturesDict({
    '_': tf.float32,
    'a': tf.float32,
    'article_id': tf.int32,
    'c': tf.float32,
    'e': tf.float32,
    'i': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'l': tf.float32,
    'n': tf.float32,
    'o': tf.float32,
    'obscene': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    't': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'u': tf.float32,
    'x': tf.float32,
    'y': tf.float32,
})
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('text', 'toxicity')

  • อ้างอิง :

@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}