- Deskripsi :
Komentar dalam kumpulan data ini berasal dari arsip komentar halaman pembicaraan Wikipedia. Ini telah dijelaskan oleh Jigsaw untuk toksisitas, serta (untuk konfigurasi utama) berbagai subtipe toksisitas, termasuk toksisitas parah, kecabulan, bahasa mengancam, bahasa menghina, dan serangan identitas. Kumpulan data ini merupakan replika dari data yang dirilis untuk kompetisi Jigsaw Toxic Comment Classification Challenge dan Jigsaw Multilingual Toxic Comment Classification di Kaggle, dengan kumpulan data pengujian digabungkan dengan test_labels yang dirilis setelah akhir kompetisi. Data uji yang tidak digunakan untuk penilaian telah dihapus. Kumpulan data ini dirilis di bawah CC0, seperti teks komentar yang mendasarinya.
Kode sumber :
tfds.text.WikipediaToxicitySubtypes
Versi :
-
0.2.0
: Fitur yang diperbarui untuk konsistensi dengan kumpulan data CivilComments. -
0.3.0
: Menambahkan konfigurasi WikipediaToxicityMultilingual. -
0.3.1
(default): Menambahkan id unik untuk setiap komentar. (Untuk konfigurasi Multibahasa, ini hanya unik dalam setiap pemisahan.)
-
Ukuran unduhan :
50.57 MiB
Di-cache otomatis ( dokumentasi ): Ya
Kunci yang diawasi (Lihat
as_supervised
doc ):('text', 'toxicity')
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :
@inproceedings{10.1145/3038912.3052591,
author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
title = {Ex Machina: Personal Attacks Seen at Scale},
year = {2017},
isbn = {9781450349130},
publisher = {International World Wide Web Conferences Steering Committee},
address = {Republic and Canton of Geneva, CHE},
url = {https://doi.org/10.1145/3038912.3052591},
doi = {10.1145/3038912.3052591},
booktitle = {Proceedings of the 26th International Conference on World Wide Web},
pages = {1391-1399},
numpages = {9},
keywords = {online discussions, wikipedia, online harassment},
location = {Perth, Australia},
series = {WWW '17}
}
wikipedia_toxicity_subtypes/EnglishSubtypes (konfigurasi default)
- Deskripsi konfigurasi : Komentar di konfigurasi WikipediaToxicitySubtypes berasal dari arsip komentar halaman pembicaraan Wikipedia bahasa Inggris yang telah dianotasi oleh Jigsaw untuk toksisitas, serta lima label subtipe toksisitas (toksisitas parah, cabul, ancaman, penghinaan, serangan_identitas). Label subtipe toksisitas dan toksisitas adalah nilai biner (0 atau 1) yang menunjukkan apakah sebagian besar anotator menetapkan atribut tersebut ke teks komentar. Konfigurasi ini adalah replika dari data yang dirilis untuk Tantangan Klasifikasi Komentar Beracun Jigsaw di Kaggle, dengan kumpulan data uji yang digabungkan dengan label_uji yang dirilis setelah kompetisi, dan data uji yang tidak digunakan untuk penilaian dihapus.
Lihat dokumentasi Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data atau https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 untuk detail lebih lanjut.
Beranda : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
Ukuran dataset :
128.32 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 63.978 |
'train' | 159.571 |
- Struktur fitur :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'identity_attack': float32,
'insult': float32,
'language': Text(shape=(), dtype=string),
'obscene': float32,
'severe_toxicity': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
Indo | Teks | rangkaian | ||
identity_attack | Tensor | float32 | ||
menyinggung | Tensor | float32 | ||
bahasa | Teks | rangkaian | ||
cabul | Tensor | float32 | ||
parah_toksisitas | Tensor | float32 | ||
teks | Teks | rangkaian | ||
ancaman | Tensor | float32 | ||
toksisitas | Tensor | float32 |
- Contoh ( tfds.as_dataframe ):
wikipedia_toxicity_subtypes/Multibahasa
- Deskripsi konfigurasi : Komentar di konfigurasi WikipediaToxicityMultilingual di sini berasal dari arsip komentar halaman pembicaraan Wikipedia non-Inggris yang dianotasi oleh Jigsaw untuk toksisitas, dengan nilai biner (0 atau 1) yang menunjukkan apakah mayoritas anotator menilai teks komentar sebagai beracun. Komentar dalam konfigurasi ini ada dalam berbagai bahasa (Turki, Italia, Spanyol, Portugis, Rusia, dan Prancis). Konfigurasi ini adalah replika dari data yang dirilis untuk Jigsaw Multilingual Toxic Comment Classification di Kaggle, dengan kumpulan data uji digabungkan dengan label_uji yang dirilis setelah kompetisi.
Lihat dokumentasi Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data untuk detail lebih lanjut.
Beranda : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
Ukuran dataset :
35.13 MiB
Perpecahan :
Membelah | Contoh |
---|---|
'test' | 63.812 |
'validation' | 8.000 |
- Struktur fitur :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'language': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'toxicity': float32,
})
- Dokumentasi fitur :
Fitur | Kelas | Membentuk | Dtype | Keterangan |
---|---|---|---|---|
fiturDict | ||||
Indo | Teks | rangkaian | ||
bahasa | Teks | rangkaian | ||
teks | Teks | rangkaian | ||
toksisitas | Tensor | float32 |
- Contoh ( tfds.as_dataframe ):