wikipedia_toxicity_subtypes

  • Açıklama:

Bu veri kümesindeki yorumlar, Wikipedia tartışma sayfası yorumlarının bir arşivinden gelir. Bunlar Jigsaw tarafından toksisite ve (ana yapılandırma için) şiddetli toksisite, müstehcenlik, tehdit edici dil, hakaret edici dil ve kimlik saldırıları dahil olmak üzere çeşitli toksisite alt türleri için açıklanmıştır. Bu veri seti, Kaggle'da Jigsaw Toxic Comment Classification Challenge ve Jigsaw Multilingual Toxic Comment Classification yarışması için yayınlanan verilerin bir kopyasıdır ve test veri seti, yarışmaların bitiminden sonra yayınlanan test_labels ile birleştirilmiştir. Puanlama için kullanılmayan test verileri çıkarıldı. Bu veri kümesi, temeldeki yorum metni gibi CC0 altında yayınlanır.

  • Kaynak kodu: tfds.text.WikipediaToxicitySubtypes

  • sürümleri:

    • 0.2.0 : CivilComments veri kümesi ile tutarlılık için Güncellenen özellikler.
    • 0.3.0 : Katma WikipediaToxicityMultilingual yapılandırma.
    • 0.3.1 (varsayılan): Her yorum için benzersiz bir kimliği eklendi. (Çok Dilli yapılandırma için bunlar yalnızca her bölmede benzersizdir.)
  • İndirme boyutu: 50.57 MiB

  • Otomatik önbelleğe ( dokümantasyon ): Evet

  • Denetimli tuşları (Bkz as_supervised doc ): ('text', 'toxicity')

  • Şekil ( tfds.show_examples ): desteklenmez.

  • Citation:

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes / EnglishSubtypes (varsayılan yapılandırma)

  • Yapılandırma tanımı: Bir toksisitesi için Jigsaw tarafından not eklenmiş İngilizce Vikipedi tartışma sayfası yorumların arşivinde yanı sıra beş toksisite alt tipi etiket (şiddetli toksisite, müstehcen, tehdit, hakaret, identity_attack) gelmektedir yapılandırma WikipediaToxicitySubtypes içinde yorumlar. Toksisite ve toksisite alt tipi etiketleri, yorumcuların çoğunluğunun bu özelliği yorum metnine atayıp atmadığını gösteren ikili değerlerdir (0 veya 1). Bu yapılandırma, Kaggle'daki Jigsaw Toxic Comment Classification Challenge için yayınlanan verilerin bir kopyasıdır, test veri kümesi yarışmadan sonra yayınlanan test_labels ile birleştirilmiştir ve puanlama için kullanılmayan test verileri düşürülmüştür.

Kaggle belgelerine bakın https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data veya https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 fazla ayrıntı için.

Bölmek Örnekler
'test' 63.978
'train' 159.571
  • Özellikler:
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'language': Text(shape=(), dtype=tf.string),
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})

wikipedia_toxicity_subtypes / Dilde

  • Yapılandırma tanımı: WikipediaToxicityMultilingual açıklamalarda annotators çoğunluğu toksik olarak açıklama metni puan olmadığını gösteren bir ikili değere (0 veya 1) ile, burada konfigürasyon dosyasında toksisitesi için Jigsaw tarafından açıklamalı İngilizce olmayan Vikipedi tartışma sayfası yorumların bir arşiv vardır. Bu yapılandırmadaki yorumlar birden çok farklı dildedir (Türkçe, İtalyanca, İspanyolca, Portekizce, Rusça ve Fransızca). Bu yapılandırma, Kaggle'da Jigsaw Çok Dilli Zehirli Yorum Sınıflandırması için yayınlanan verilerin bir kopyasıdır ve test veri seti yarışmadan sonra yayınlanan test_labels ile birleştirilmiştir.

Kaggle belgelerine bakın https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data fazla ayrıntı için.

Bölmek Örnekler
'test' 63.812
'validation' 8.000
  • Özellikler:
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'language': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'toxicity': tf.float32,
})