wikipedia_toksisite_alt türleri

  • Açıklama :

Bu veri kümesindeki yorumlar, Wikipedia tartışma sayfası yorumlarından oluşan bir arşivden gelmektedir. Bunlar, şiddetli toksisite, müstehcenlik, tehdit edici dil, aşağılayıcı dil ve kimlik saldırıları dahil olmak üzere çeşitli toksisite alt türlerinin yanı sıra (ana yapılandırma için) Jigsaw tarafından toksisite için açıklama eklenmiştir. Bu veri seti, Kaggle'daki Jigsaw Toxic Comment Classification Challenge ve Jigsaw Multilingual Toxic Comment Classification yarışması için yayınlanan verilerin bir kopyasıdır ve test veri seti, yarışmaların bitiminden sonra yayınlanan test_labels ile birleştirilmiştir. Puanlama için kullanılmayan test verileri düştü. Bu veri kümesi, altta yatan yorum metni gibi CC0 altında yayınlanır.

  • Kaynak kodu : tfds.text.WikipediaToxicitySubtypes

  • sürümler :

    • 0.2.0 : CivilComments veri kümesiyle tutarlılık için güncellenmiş özellikler.
    • 0.3.0 : WikipediaToxicityMultilingual yapılandırması eklendi.
    • 0.3.1 (varsayılan): Her yorum için benzersiz bir kimlik eklendi. (Çok Dilli yapılandırma için bunlar yalnızca her bölmede benzersizdir.)
  • İndirme boyutu : 50.57 MiB

  • Otomatik önbelleğe alınmış ( belgeleme ): Evet

  • Denetimli anahtarlar (Bkz as_supervised doc ): ('text', 'toxicity')

  • Şekil ( tfds.show_examples ): Desteklenmiyor.

  • Alıntı :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toksisite_subtypes/EnglishSubtypes (varsayılan yapılandırma)

  • Yapılandırma açıklaması : WikipediaToxicitySubtypes yapılandırmasındaki yorumlar, Jigsaw tarafından toksisite ve ayrıca beş toksisite alt türü etiketi (şiddetli toksisite, müstehcen, tehdit, hakaret, kimlik_saldırısı) için açıklama eklenmiş İngilizce Wikipedia tartışma sayfası yorumlarının bir arşivindendir. Toksisite ve toksisite alt tipi etiketleri, açıklama yapanların çoğunluğunun bu özelliği yorum metnine atayıp atamadığını gösteren ikili değerlerdir (0 veya 1). Bu yapılandırma, Kaggle'da Jigsaw Toxic Comment Classification Challenge için yayınlanan verilerin bir kopyasıdır; test veri seti, yarışmadan sonra yayınlanan test_labels ile birleştirilir ve puanlama için kullanılmayan test verileri düşer.

Daha fazla ayrıntı için Kaggle belgelerine https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data veya https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 bakın.

Bölmek örnekler
'test' 63.978
'train' 159.571
  • Özellik yapısı :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
İD Metin sicim
kimlik_saldırısı tensör şamandıra32
hakaret etmek tensör şamandıra32
dil Metin sicim
müstehcen tensör şamandıra32
şiddetli_toksisite tensör şamandıra32
Metin Metin sicim
tehdit tensör şamandıra32
toksisite tensör şamandıra32

wikipedia_toksisite_subtypes/Çok dilli

  • Yapılandırma açıklaması : Buradaki WikipediaToxicityMultilingual yapılandırmasındaki yorumlar, Jigsaw tarafından toksisite için açıklama eklenmiş İngilizce olmayan Wikipedia tartışma sayfası yorumlarından oluşan bir arşivden alınmıştır ve ek açıklama yapanların çoğunluğunun yorum metnini zehirli olarak derecelendirip derecelendirmediğini gösteren ikili bir değer (0 veya 1) vardır. Bu yapılandırmadaki yorumlar birden çok farklı dildedir (Türkçe, İtalyanca, İspanyolca, Portekizce, Rusça ve Fransızca). Bu yapılandırma, Kaggle'da Jigsaw Çok Dilli Toksik Yorum Sınıflandırması için yayınlanan verilerin bir kopyasıdır ve test veri seti, yarışmadan sonra yayınlanan test_labels ile birleştirilmiştir.

Daha fazla ayrıntı için Kaggle belgelerine https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data bakın.

Bölmek örnekler
'test' 63.812
'validation' 8.000
  • Özellik yapısı :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
İD Metin sicim
dil Metin sicim
Metin Metin sicim
toksisite tensör şamandıra32