wikipedia_toxicity_subtypes

  • Deskripsi :

Komentar dalam kumpulan data ini berasal dari arsip komentar halaman pembicaraan Wikipedia. Ini telah dijelaskan oleh Jigsaw untuk toksisitas, serta (untuk konfigurasi utama) berbagai subtipe toksisitas, termasuk toksisitas parah, kecabulan, bahasa mengancam, bahasa menghina, dan serangan identitas. Kumpulan data ini merupakan replika dari data yang dirilis untuk kompetisi Jigsaw Toxic Comment Classification Challenge dan Jigsaw Multilingual Toxic Comment Classification di Kaggle, dengan kumpulan data pengujian digabungkan dengan test_labels yang dirilis setelah akhir kompetisi. Data uji yang tidak digunakan untuk penilaian telah dihapus. Kumpulan data ini dirilis di bawah CC0, seperti teks komentar yang mendasarinya.

  • Kode sumber : tfds.text.WikipediaToxicitySubtypes

  • Versi :

    • 0.2.0 : Fitur yang diperbarui untuk konsistensi dengan kumpulan data CivilComments.
    • 0.3.0 : Menambahkan konfigurasi WikipediaToxicityMultilingual.
    • 0.3.1 (default): Menambahkan id unik untuk setiap komentar. (Untuk konfigurasi Multibahasa, ini hanya unik dalam setiap pemisahan.)
  • Ukuran unduhan : 50.57 MiB

  • Di-cache otomatis ( dokumentasi ): Ya

  • Kunci yang diawasi (Lihat as_supervised doc ): ('text', 'toxicity')

  • Gambar ( tfds.show_examples ): Tidak didukung.

  • Kutipan :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSubtypes (konfigurasi default)

  • Deskripsi konfigurasi : Komentar di konfigurasi WikipediaToxicitySubtypes berasal dari arsip komentar halaman pembicaraan Wikipedia bahasa Inggris yang telah dianotasi oleh Jigsaw untuk toksisitas, serta lima label subtipe toksisitas (toksisitas parah, cabul, ancaman, penghinaan, serangan_identitas). Label subtipe toksisitas dan toksisitas adalah nilai biner (0 atau 1) yang menunjukkan apakah sebagian besar anotator menetapkan atribut tersebut ke teks komentar. Konfigurasi ini adalah replika dari data yang dirilis untuk Tantangan Klasifikasi Komentar Beracun Jigsaw di Kaggle, dengan kumpulan data uji yang digabungkan dengan label_uji yang dirilis setelah kompetisi, dan data uji yang tidak digunakan untuk penilaian dihapus.

Lihat dokumentasi Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data atau https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 untuk detail lebih lanjut.

Membelah Contoh
'test' 63.978
'train' 159.571
  • Struktur fitur :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
Indo Teks rangkaian
identity_attack Tensor float32
menyinggung Tensor float32
bahasa Teks rangkaian
cabul Tensor float32
parah_toksisitas Tensor float32
teks Teks rangkaian
ancaman Tensor float32
toksisitas Tensor float32

wikipedia_toxicity_subtypes/Multibahasa

  • Deskripsi konfigurasi : Komentar di konfigurasi WikipediaToxicityMultilingual di sini berasal dari arsip komentar halaman pembicaraan Wikipedia non-Inggris yang dianotasi oleh Jigsaw untuk toksisitas, dengan nilai biner (0 atau 1) yang menunjukkan apakah mayoritas anotator menilai teks komentar sebagai beracun. Komentar dalam konfigurasi ini ada dalam berbagai bahasa (Turki, Italia, Spanyol, Portugis, Rusia, dan Prancis). Konfigurasi ini adalah replika dari data yang dirilis untuk Jigsaw Multilingual Toxic Comment Classification di Kaggle, dengan kumpulan data uji digabungkan dengan label_uji yang dirilis setelah kompetisi.

Lihat dokumentasi Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data untuk detail lebih lanjut.

Membelah Contoh
'test' 63.812
'validation' 8.000
  • Struktur fitur :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
Indo Teks rangkaian
bahasa Teks rangkaian
teks Teks rangkaian
toksisitas Tensor float32