ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

wikipedia_toxicity_subtypes

  • รายละเอียด:

ความคิดเห็นในชุดข้อมูลนี้มาจากที่เก็บถาวรของความคิดเห็นในหน้าพูดคุยของ Wikipedia จิ๊กซอว์ระบุหมายเหตุว่ามีความเป็นพิษ เช่นเดียวกับ (สำหรับการกำหนดค่าหลัก) ประเภทย่อยของความเป็นพิษที่หลากหลาย รวมถึงความเป็นพิษรุนแรง ความลามก ภาษาที่คุกคาม ภาษาดูถูก และการโจมตีเอกลักษณ์ ชุดข้อมูลนี้เป็นแบบจำลองของข้อมูลที่เผยแพร่สำหรับการแข่งขัน Jigsaw Toxic Comment Classification Challenge และการแข่งขัน Jigsaw Multilingual Toxic Comment Classification ใน Kaggle โดยชุดข้อมูลการทดสอบถูกรวมเข้ากับ test_labels ที่เผยแพร่หลังจากสิ้นสุดการแข่งขัน ข้อมูลการทดสอบที่ไม่ได้ใช้สำหรับการให้คะแนนลดลง ชุดข้อมูลนี้เผยแพร่ภายใต้ CC0 เช่นเดียวกับข้อความความคิดเห็นพื้นฐาน

  • รหัสที่มา: tfds.text.WikipediaToxicitySubtypes

  • รุ่น:

    • 0.2.0 : คุณลักษณะการปรับปรุงสำหรับความสอดคล้องกับชุดข้อมูล CivilComments
    • 0.3.0 : เพิ่ม WikipediaToxicityMultilingual การตั้งค่า
    • 0.3.1 (เริ่มต้น): เพิ่ม ID ไม่ซ้ำกันในแต่ละความคิดเห็น (สำหรับการกำหนดค่าหลายภาษา การกำหนดค่าเหล่านี้จะไม่ซ้ำกันในแต่ละการแยก)
  • ขนาดการดาวน์โหลด: 50.57 MiB

  • ออโต้แคช ( เอกสาร ): ใช่

  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('text', 'toxicity')

  • รูป ( tfds.show_examples ): ไม่ได้รับการสนับสนุน

  • อ้างอิง:

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes / EnglishSubtypes (ค่าเริ่มต้นการตั้งค่า)

  • คำอธิบาย Config: ความเห็นใน WikipediaToxicitySubtypes การตั้งค่ามาจากที่เก็บของวิกิพีเดียภาษาอังกฤษความเห็นหน้าพูดคุยซึ่งได้รับการข้อเขียนจิ๊กซอว์เป็นพิษเป็นเช่นเดียวกับห้าป้ายเป็นพิษชนิดย่อย (ความเป็นพิษรุนแรงลามกอนาจารคุกคามดูถูก identity_attack) ป้ายกำกับประเภทย่อยความเป็นพิษและความเป็นพิษเป็นค่าไบนารี (0 หรือ 1) ที่ระบุว่าผู้ทำหมายเหตุประกอบส่วนใหญ่กำหนดแอตทริบิวต์นั้นให้กับข้อความความคิดเห็นหรือไม่ การกำหนดค่านี้เป็นแบบจำลองของข้อมูลที่เผยแพร่สำหรับ Jigsaw Toxic Comment Classification Challenge บน Kaggle โดยชุดข้อมูลการทดสอบจะเข้าร่วมกับ test_labels ที่เผยแพร่หลังการแข่งขัน และข้อมูลการทดสอบที่ไม่ได้ใช้สำหรับการให้คะแนนลดลง

ดูเอกสาร Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data หรือ https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 สำหรับรายละเอียดเพิ่มเติม

แยก ตัวอย่าง
'test' 63,978
'train' 159,571
  • คุณสมบัติ:
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'language': Text(shape=(), dtype=tf.string),
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})

wikipedia_toxicity_subtypes / สื่อสารได้หลายภาษา

  • คำอธิบาย Config: ความเห็นใน WikipediaToxicityMultilingual ปรับแต่งที่นี่จากที่เก็บของวิกิพีเดียภาษาอังกฤษไม่ใช่ความเห็นหน้าพูดคุยข้อเขียนจิ๊กซอว์เป็นพิษที่มีค่าไบนารี (0 หรือ 1) ระบุว่าส่วนใหญ่ของ annotators รับการจัดอันดับความคิดเห็นข้อความที่เป็นพิษ ความคิดเห็นในการกำหนดค่านี้มีหลายภาษา (ตุรกี อิตาลี สเปน โปรตุเกส รัสเซีย และฝรั่งเศส) การกำหนดค่านี้เป็นแบบจำลองของข้อมูลที่เผยแพร่สำหรับ Jigsaw Multilingual Toxic Comment Classification บน Kaggle โดยมีชุดข้อมูลการทดสอบเข้าร่วมกับ test_labels ที่เผยแพร่หลังการแข่งขัน

ดูเอกสาร Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data สำหรับรายละเอียดเพิ่มเติม

แยก ตัวอย่าง
'test' 63,812
'validation' 8,000
  • คุณสมบัติ:
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'language': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'toxicity': tf.float32,
})