- คำอธิบาย :
ความคิดเห็นในชุดข้อมูลนี้มาจากที่เก็บถาวรของความคิดเห็นในหน้าพูดคุยของวิกิพีเดีย สิ่งเหล่านี้ได้รับคำอธิบายประกอบโดย Jigsaw สำหรับความเป็นพิษ เช่นเดียวกับ (สำหรับการกำหนดค่าหลัก) ประเภทย่อยความเป็นพิษที่หลากหลาย รวมถึงความเป็นพิษรุนแรง ความหยาบคาย ภาษาคุกคาม ภาษาดูถูก และการโจมตีตัวตน ชุดข้อมูลนี้เป็นแบบจำลองของข้อมูลที่เผยแพร่สำหรับการแข่งขัน Jigsaw Toxic Comment Classification Challenge และ Jigsaw Multilingual Toxic Comment Classification บน Kaggle โดยชุดข้อมูลทดสอบจะผสานกับ test_labels ที่เผยแพร่หลังจากสิ้นสุดการแข่งขัน ข้อมูลการทดสอบที่ไม่ได้ใช้สำหรับการให้คะแนนลดลง ชุดข้อมูลนี้เผยแพร่ภายใต้ CC0 เช่นเดียวกับข้อความแสดงความคิดเห็น
รหัสแหล่งที่มา :
tfds.text.WikipediaToxicitySubtypes
รุ่น :
-
0.2.0
: คุณลักษณะที่อัปเดตเพื่อให้สอดคล้องกับชุดข้อมูล CivilComments -
0.3.0
: เพิ่มการกำหนดค่า WikipediaToxicity หลายภาษา -
0.3.1
(ค่าเริ่มต้น): เพิ่มรหัสเฉพาะสำหรับแต่ละความคิดเห็น (สำหรับการกำหนดค่าหลายภาษา สิ่งเหล่านี้จะไม่ซ้ำกันในแต่ละการแยกเท่านั้น)
-
ขนาดการดาวน์โหลด :
50.57 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):('text', 'toxicity')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :
@inproceedings{10.1145/3038912.3052591,
author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
title = {Ex Machina: Personal Attacks Seen at Scale},
year = {2017},
isbn = {9781450349130},
publisher = {International World Wide Web Conferences Steering Committee},
address = {Republic and Canton of Geneva, CHE},
url = {https://doi.org/10.1145/3038912.3052591},
doi = {10.1145/3038912.3052591},
booktitle = {Proceedings of the 26th International Conference on World Wide Web},
pages = {1391-1399},
numpages = {9},
keywords = {online discussions, wikipedia, online harassment},
location = {Perth, Australia},
series = {WWW '17}
}
wikipedia_toxicity_subtypes/EnglishSubtypes (การกำหนดค่าเริ่มต้น)
- คำอธิบาย การกำหนดค่า : ความคิดเห็นในการกำหนดค่าประเภทย่อยของ WikipediaToxicity มาจากที่เก็บถาวรของความคิดเห็นในหน้าพูดคุยของวิกิพีเดียภาษาอังกฤษ ซึ่ง Jigsaw ได้ใส่คำอธิบายประกอบสำหรับความเป็นพิษ รวมถึงป้ายกำกับประเภทย่อยความเป็นพิษห้ารายการ (ความเป็นพิษรุนแรง อนาจาร คุกคาม ดูหมิ่น ระบุตัวตน_โจมตี) ป้ายกำกับประเภทย่อยความเป็นพิษและความเป็นพิษเป็นค่าไบนารี (0 หรือ 1) ซึ่งบ่งชี้ว่าตัวเขียนคำอธิบายประกอบส่วนใหญ่กำหนดแอตทริบิวต์นั้นให้กับข้อความแสดงความคิดเห็นหรือไม่ การกำหนดค่านี้เป็นแบบจำลองของข้อมูลที่เผยแพร่สำหรับ Jigsaw Toxic Comment Classification Challenge บน Kaggle โดยมีชุดข้อมูลทดสอบรวมกับ test_labels ที่เผยแพร่หลังการแข่งขัน และข้อมูลการทดสอบที่ไม่ได้ใช้สำหรับการให้คะแนนลดลง
ดูเอกสารประกอบของ Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data หรือ https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 สำหรับรายละเอียดเพิ่มเติม
หน้าแรก : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
ขนาดชุดข้อมูล :
128.32 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 63,978 |
'train' | 159,571 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'identity_attack': float32,
'insult': float32,
'language': Text(shape=(), dtype=string),
'obscene': float32,
'severe_toxicity': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
รหัส | ข้อความ | สตริง | ||
identity_attack | เทนเซอร์ | ลอย32 | ||
สบประมาท | เทนเซอร์ | ลอย32 | ||
ภาษา | ข้อความ | สตริง | ||
ลามก | เทนเซอร์ | ลอย32 | ||
รุนแรง_เป็นพิษ | เทนเซอร์ | ลอย32 | ||
ข้อความ | ข้อความ | สตริง | ||
ภัยคุกคาม | เทนเซอร์ | ลอย32 | ||
ความเป็นพิษ | เทนเซอร์ | ลอย32 |
- ตัวอย่าง ( tfds.as_dataframe ):
wikipedia_toxicity_subtypes/หลายภาษา
- คำอธิบาย การกำหนดค่า : ความคิดเห็นในการกำหนดค่าหลายภาษาของ WikipediaToxicity มาจากที่เก็บถาวรของความคิดเห็นในหน้าพูดคุยของ Wikipedia ที่ไม่ใช่ภาษาอังกฤษซึ่งทำหมายเหตุประกอบโดย Jigsaw สำหรับความเป็นพิษ โดยมีค่าไบนารี (0 หรือ 1) ระบุว่าผู้อธิบายประกอบส่วนใหญ่ให้คะแนนข้อความความคิดเห็นว่าเป็นพิษหรือไม่ ความคิดเห็นในการกำหนดค่านี้มีหลายภาษา (ตุรกี อิตาลี สเปน โปรตุเกส รัสเซีย และฝรั่งเศส) การกำหนดค่านี้เป็นแบบจำลองของข้อมูลที่เผยแพร่สำหรับ Jigsaw Multilingual Toxic Comment Classification บน Kaggle โดยมีชุดข้อมูลทดสอบรวมกับ test_labels ที่เผยแพร่หลังการแข่งขัน
ดูเอกสารประกอบของ Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data สำหรับรายละเอียดเพิ่มเติม
หน้าแรก : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
ขนาดชุดข้อมูล :
35.13 MiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 63,812 |
'validation' | 8,000 |
- โครงสร้างคุณลักษณะ :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'language': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'toxicity': float32,
})
- เอกสารคุณสมบัติ :
ลักษณะเฉพาะ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
รหัส | ข้อความ | สตริง | ||
ภาษา | ข้อความ | สตริง | ||
ข้อความ | ข้อความ | สตริง | ||
ความเป็นพิษ | เทนเซอร์ | ลอย32 |
- ตัวอย่าง ( tfds.as_dataframe ):