Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

wikipedia_toxicity_subtypes

  • Deskripsi :

Versi kumpulan data Wikipedia Toxicity Subtypes ini menyediakan akses ke label toksisitas primer, serta lima label subtipe toksisitas yang dijelaskan oleh pekerja kerumunan. Label subtipe toksisitas dan toksisitas adalah nilai biner (0 atau

1) menunjukkan apakah mayoritas anotator menetapkan atribut itu ke teks komentar.

Komentar dalam kumpulan data ini berasal dari arsip komentar halaman pembicaraan Wikipedia. Ini telah dijelaskan oleh Jigsaw untuk toksisitas, serta berbagai subtipe toksisitas, termasuk toksisitas parah, kecabulan, bahasa yang mengancam, bahasa yang menghina, dan serangan identitas. Kumpulan data ini adalah replika dari data yang dirilis untuk Tantangan Klasifikasi Komentar Beracun Jigsaw di Kaggle, dengan set pelatihan tidak berubah, dan kumpulan data pengujian digabungkan dengan label_uji yang dirilis setelah kompetisi berakhir. Data pengujian yang tidak digunakan untuk penilaian telah dihapus. Kumpulan data ini dirilis di bawah CC0, seperti teks komentar yang mendasarinya.

Lihat dokumentasi Kaggle atau https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 untuk lebih jelasnya.

Membagi Contoh
'test' 63.978
'train' 159.571
  • Fitur :
FeaturesDict({
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}