wikipedia_toxicity_subtypes

คำอธิบาย :

ความคิดเห็นในชุดข้อมูลนี้มาจากที่เก็บถาวรของความคิดเห็นในหน้าพูดคุยของวิกิพีเดีย สิ่งเหล่านี้ได้รับคำอธิบายประกอบโดย Jigsaw สำหรับความเป็นพิษ เช่นเดียวกับ (สำหรับการกำหนดค่าหลัก) ประเภทย่อยความเป็นพิษที่หลากหลาย รวมถึงความเป็นพิษรุนแรง ความหยาบคาย ภาษาคุกคาม ภาษาดูถูก และการโจมตีตัวตน ชุดข้อมูลนี้เป็นแบบจำลองของข้อมูลที่เผยแพร่สำหรับการแข่งขัน Jigsaw Toxic Comment Classification Challenge และ Jigsaw Multilingual Toxic Comment Classification บน Kaggle โดยชุดข้อมูลทดสอบจะผสานกับ test_labels ที่เผยแพร่หลังจากสิ้นสุดการแข่งขัน ข้อมูลการทดสอบที่ไม่ได้ใช้สำหรับการให้คะแนนลดลง ชุดข้อมูลนี้เผยแพร่ภายใต้ CC0 เช่นเดียวกับข้อความแสดงความคิดเห็น

รหัสแหล่งที่มา : tfds.text.WikipediaToxicitySubtypes
รุ่น :
- 0.2.0 : คุณลักษณะที่อัปเดตเพื่อให้สอดคล้องกับชุดข้อมูล CivilComments
- 0.3.0 : เพิ่มการกำหนดค่า WikipediaToxicity หลายภาษา
- 0.3.1 (ค่าเริ่มต้น): เพิ่มรหัสเฉพาะสำหรับแต่ละความคิดเห็น (สำหรับการกำหนดค่าหลายภาษา สิ่งเหล่านี้จะไม่ซ้ำกันในแต่ละการแยกเท่านั้น)
ขนาดการดาวน์โหลด : 50.57 MiB
แคชอัตโนมัติ ( เอกสาร ): ใช่
คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('text', 'toxicity')
รูปภาพ ( tfds.show_examples ): ไม่รองรับ
การอ้างอิง :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSubtypes (การกำหนดค่าเริ่มต้น)

คำอธิบาย การกำหนดค่า : ความคิดเห็นในการกำหนดค่าประเภทย่อยของ WikipediaToxicity มาจากที่เก็บถาวรของความคิดเห็นในหน้าพูดคุยของวิกิพีเดียภาษาอังกฤษ ซึ่ง Jigsaw ได้ใส่คำอธิบายประกอบสำหรับความเป็นพิษ รวมถึงป้ายกำกับประเภทย่อยความเป็นพิษห้ารายการ (ความเป็นพิษรุนแรง อนาจาร คุกคาม ดูหมิ่น ระบุตัวตน_โจมตี) ป้ายกำกับประเภทย่อยความเป็นพิษและความเป็นพิษเป็นค่าไบนารี (0 หรือ 1) ซึ่งบ่งชี้ว่าตัวเขียนคำอธิบายประกอบส่วนใหญ่กำหนดแอตทริบิวต์นั้นให้กับข้อความแสดงความคิดเห็นหรือไม่ การกำหนดค่านี้เป็นแบบจำลองของข้อมูลที่เผยแพร่สำหรับ Jigsaw Toxic Comment Classification Challenge บน Kaggle โดยมีชุดข้อมูลทดสอบรวมกับ test_labels ที่เผยแพร่หลังการแข่งขัน และข้อมูลการทดสอบที่ไม่ได้ใช้สำหรับการให้คะแนนลดลง

ดูเอกสารประกอบของ Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data หรือ https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 สำหรับรายละเอียดเพิ่มเติม

หน้าแรก : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
ขนาดชุดข้อมูล : 128.32 MiB
แยก :

แยก	ตัวอย่าง
`'test'`	63,978
`'train'`	159,571

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	Dประเภท
	คุณสมบัติDict
รหัส	ข้อความ	สตริง
identity_attack	เทนเซอร์	ลอย32
สบประมาท	เทนเซอร์	ลอย32
ภาษา	ข้อความ	สตริง
ลามก	เทนเซอร์	ลอย32
รุนแรง_เป็นพิษ	เทนเซอร์	ลอย32
ข้อความ	ข้อความ	สตริง
ภัยคุกคาม	เทนเซอร์	ลอย32
ความเป็นพิษ	เทนเซอร์	ลอย32

ตัวอย่าง ( tfds.as_dataframe ):

wikipedia_toxicity_subtypes/หลายภาษา

คำอธิบาย การกำหนดค่า : ความคิดเห็นในการกำหนดค่าหลายภาษาของ WikipediaToxicity มาจากที่เก็บถาวรของความคิดเห็นในหน้าพูดคุยของ Wikipedia ที่ไม่ใช่ภาษาอังกฤษซึ่งทำหมายเหตุประกอบโดย Jigsaw สำหรับความเป็นพิษ โดยมีค่าไบนารี (0 หรือ 1) ระบุว่าผู้อธิบายประกอบส่วนใหญ่ให้คะแนนข้อความความคิดเห็นว่าเป็นพิษหรือไม่ ความคิดเห็นในการกำหนดค่านี้มีหลายภาษา (ตุรกี อิตาลี สเปน โปรตุเกส รัสเซีย และฝรั่งเศส) การกำหนดค่านี้เป็นแบบจำลองของข้อมูลที่เผยแพร่สำหรับ Jigsaw Multilingual Toxic Comment Classification บน Kaggle โดยมีชุดข้อมูลทดสอบรวมกับ test_labels ที่เผยแพร่หลังการแข่งขัน

ดูเอกสารประกอบของ Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data สำหรับรายละเอียดเพิ่มเติม

หน้าแรก : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
ขนาดชุดข้อมูล : 35.13 MiB
แยก :

แยก	ตัวอย่าง
`'test'`	63,812
`'validation'`	8,000

โครงสร้างคุณลักษณะ :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})

เอกสารคุณสมบัติ :

ลักษณะเฉพาะ	ระดับ	Dประเภท
	คุณสมบัติDict
รหัส	ข้อความ	สตริง
ภาษา	ข้อความ	สตริง
ข้อความ	ข้อความ	สตริง
ความเป็นพิษ	เทนเซอร์	ลอย32

ตัวอย่าง ( tfds.as_dataframe ):