wikipedia_toksisite_alt türleri

Açıklama :

Bu veri kümesindeki yorumlar, Wikipedia tartışma sayfası yorumlarından oluşan bir arşivden gelmektedir. Bunlar, şiddetli toksisite, müstehcenlik, tehdit edici dil, aşağılayıcı dil ve kimlik saldırıları dahil olmak üzere çeşitli toksisite alt türlerinin yanı sıra (ana yapılandırma için) Jigsaw tarafından toksisite için açıklama eklenmiştir. Bu veri seti, Kaggle'daki Jigsaw Toxic Comment Classification Challenge ve Jigsaw Multilingual Toxic Comment Classification yarışması için yayınlanan verilerin bir kopyasıdır ve test veri seti, yarışmaların bitiminden sonra yayınlanan test_labels ile birleştirilmiştir. Puanlama için kullanılmayan test verileri düştü. Bu veri kümesi, altta yatan yorum metni gibi CC0 altında yayınlanır.

Kaynak kodu : tfds.text.WikipediaToxicitySubtypes
sürümler :
- 0.2.0 : CivilComments veri kümesiyle tutarlılık için güncellenmiş özellikler.
- 0.3.0 : WikipediaToxicityMultilingual yapılandırması eklendi.
- 0.3.1 (varsayılan): Her yorum için benzersiz bir kimlik eklendi. (Çok Dilli yapılandırma için bunlar yalnızca her bölmede benzersizdir.)
İndirme boyutu : 50.57 MiB
Otomatik önbelleğe alınmış ( belgeleme ): Evet
Denetimli anahtarlar (Bkz as_supervised doc ): ('text', 'toxicity')
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toksisite_subtypes/EnglishSubtypes (varsayılan yapılandırma)

Yapılandırma açıklaması : WikipediaToxicitySubtypes yapılandırmasındaki yorumlar, Jigsaw tarafından toksisite ve ayrıca beş toksisite alt türü etiketi (şiddetli toksisite, müstehcen, tehdit, hakaret, kimlik_saldırısı) için açıklama eklenmiş İngilizce Wikipedia tartışma sayfası yorumlarının bir arşivindendir. Toksisite ve toksisite alt tipi etiketleri, açıklama yapanların çoğunluğunun bu özelliği yorum metnine atayıp atamadığını gösteren ikili değerlerdir (0 veya 1). Bu yapılandırma, Kaggle'da Jigsaw Toxic Comment Classification Challenge için yayınlanan verilerin bir kopyasıdır; test veri seti, yarışmadan sonra yayınlanan test_labels ile birleştirilir ve puanlama için kullanılmayan test verileri düşer.

Daha fazla ayrıntı için Kaggle belgelerine https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data veya https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 bakın.

Ana Sayfa : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
Veri kümesi boyutu : 128.32 MiB
bölmeler :

Bölmek	örnekler
`'test'`	63.978
`'train'`	159.571

Özellik yapısı :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})

Özellik belgeleri :

Özellik	Sınıf	Dtipi
	ÖzelliklerDict
İD	Metin	sicim
kimlik_saldırısı	tensör	şamandıra32
hakaret etmek	tensör	şamandıra32
dil	Metin	sicim
müstehcen	tensör	şamandıra32
şiddetli_toksisite	tensör	şamandıra32
Metin	Metin	sicim
tehdit	tensör	şamandıra32
toksisite	tensör	şamandıra32

Örnekler ( tfds.as_dataframe ):

wikipedia_toksisite_subtypes/Çok dilli

Yapılandırma açıklaması : Buradaki WikipediaToxicityMultilingual yapılandırmasındaki yorumlar, Jigsaw tarafından toksisite için açıklama eklenmiş İngilizce olmayan Wikipedia tartışma sayfası yorumlarından oluşan bir arşivden alınmıştır ve ek açıklama yapanların çoğunluğunun yorum metnini zehirli olarak derecelendirip derecelendirmediğini gösteren ikili bir değer (0 veya 1) vardır. Bu yapılandırmadaki yorumlar birden çok farklı dildedir (Türkçe, İtalyanca, İspanyolca, Portekizce, Rusça ve Fransızca). Bu yapılandırma, Kaggle'da Jigsaw Çok Dilli Toksik Yorum Sınıflandırması için yayınlanan verilerin bir kopyasıdır ve test veri seti, yarışmadan sonra yayınlanan test_labels ile birleştirilmiştir.

Daha fazla ayrıntı için Kaggle belgelerine https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data bakın.

Ana Sayfa : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
Veri kümesi boyutu : 35.13 MiB
bölmeler :

Bölmek	örnekler
`'test'`	63.812
`'validation'`	8.000

Özellik yapısı :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})

Özellik belgeleri :

Özellik	Sınıf	Dtipi
	ÖzelliklerDict
İD	Metin	sicim
dil	Metin	sicim
Metin	Metin	sicim
toksisite	tensör	şamandıra32

Örnekler ( tfds.as_dataframe ):