- Açıklama :
Bu veri kümesindeki yorumlar, Wikipedia tartışma sayfası yorumlarından oluşan bir arşivden gelmektedir. Bunlar, şiddetli toksisite, müstehcenlik, tehdit edici dil, aşağılayıcı dil ve kimlik saldırıları dahil olmak üzere çeşitli toksisite alt türlerinin yanı sıra (ana yapılandırma için) Jigsaw tarafından toksisite için açıklama eklenmiştir. Bu veri seti, Kaggle'daki Jigsaw Toxic Comment Classification Challenge ve Jigsaw Multilingual Toxic Comment Classification yarışması için yayınlanan verilerin bir kopyasıdır ve test veri seti, yarışmaların bitiminden sonra yayınlanan test_labels ile birleştirilmiştir. Puanlama için kullanılmayan test verileri düştü. Bu veri kümesi, altta yatan yorum metni gibi CC0 altında yayınlanır.
Kaynak kodu :
tfds.text.WikipediaToxicitySubtypes
sürümler :
-
0.2.0
: CivilComments veri kümesiyle tutarlılık için güncellenmiş özellikler. -
0.3.0
: WikipediaToxicityMultilingual yapılandırması eklendi. -
0.3.1
(varsayılan): Her yorum için benzersiz bir kimlik eklendi. (Çok Dilli yapılandırma için bunlar yalnızca her bölmede benzersizdir.)
-
İndirme boyutu :
50.57 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
Denetimli anahtarlar (Bkz
as_supervised
doc ):('text', 'toxicity')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :
@inproceedings{10.1145/3038912.3052591,
author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
title = {Ex Machina: Personal Attacks Seen at Scale},
year = {2017},
isbn = {9781450349130},
publisher = {International World Wide Web Conferences Steering Committee},
address = {Republic and Canton of Geneva, CHE},
url = {https://doi.org/10.1145/3038912.3052591},
doi = {10.1145/3038912.3052591},
booktitle = {Proceedings of the 26th International Conference on World Wide Web},
pages = {1391-1399},
numpages = {9},
keywords = {online discussions, wikipedia, online harassment},
location = {Perth, Australia},
series = {WWW '17}
}
wikipedia_toksisite_subtypes/EnglishSubtypes (varsayılan yapılandırma)
- Yapılandırma açıklaması : WikipediaToxicitySubtypes yapılandırmasındaki yorumlar, Jigsaw tarafından toksisite ve ayrıca beş toksisite alt türü etiketi (şiddetli toksisite, müstehcen, tehdit, hakaret, kimlik_saldırısı) için açıklama eklenmiş İngilizce Wikipedia tartışma sayfası yorumlarının bir arşivindendir. Toksisite ve toksisite alt tipi etiketleri, açıklama yapanların çoğunluğunun bu özelliği yorum metnine atayıp atamadığını gösteren ikili değerlerdir (0 veya 1). Bu yapılandırma, Kaggle'da Jigsaw Toxic Comment Classification Challenge için yayınlanan verilerin bir kopyasıdır; test veri seti, yarışmadan sonra yayınlanan test_labels ile birleştirilir ve puanlama için kullanılmayan test verileri düşer.
Daha fazla ayrıntı için Kaggle belgelerine https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data veya https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 bakın.
Ana Sayfa : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
Veri kümesi boyutu :
128.32 MiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 63.978 |
'train' | 159.571 |
- Özellik yapısı :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'identity_attack': float32,
'insult': float32,
'language': Text(shape=(), dtype=string),
'obscene': float32,
'severe_toxicity': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
İD | Metin | sicim | ||
kimlik_saldırısı | tensör | şamandıra32 | ||
hakaret etmek | tensör | şamandıra32 | ||
dil | Metin | sicim | ||
müstehcen | tensör | şamandıra32 | ||
şiddetli_toksisite | tensör | şamandıra32 | ||
Metin | Metin | sicim | ||
tehdit | tensör | şamandıra32 | ||
toksisite | tensör | şamandıra32 |
- Örnekler ( tfds.as_dataframe ):
wikipedia_toksisite_subtypes/Çok dilli
- Yapılandırma açıklaması : Buradaki WikipediaToxicityMultilingual yapılandırmasındaki yorumlar, Jigsaw tarafından toksisite için açıklama eklenmiş İngilizce olmayan Wikipedia tartışma sayfası yorumlarından oluşan bir arşivden alınmıştır ve ek açıklama yapanların çoğunluğunun yorum metnini zehirli olarak derecelendirip derecelendirmediğini gösteren ikili bir değer (0 veya 1) vardır. Bu yapılandırmadaki yorumlar birden çok farklı dildedir (Türkçe, İtalyanca, İspanyolca, Portekizce, Rusça ve Fransızca). Bu yapılandırma, Kaggle'da Jigsaw Çok Dilli Toksik Yorum Sınıflandırması için yayınlanan verilerin bir kopyasıdır ve test veri seti, yarışmadan sonra yayınlanan test_labels ile birleştirilmiştir.
Daha fazla ayrıntı için Kaggle belgelerine https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data bakın.
Ana Sayfa : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
Veri kümesi boyutu :
35.13 MiB
bölmeler :
Bölmek | örnekler |
---|---|
'test' | 63.812 |
'validation' | 8.000 |
- Özellik yapısı :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'language': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'toxicity': float32,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtipi | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
İD | Metin | sicim | ||
dil | Metin | sicim | ||
Metin | Metin | sicim | ||
toksisite | tensör | şamandıra32 |
- Örnekler ( tfds.as_dataframe ):