Эта страница была переведа с помощью Cloud Translation API.
Switch to English

wikipedia_toxicity_subtypes

  • Описание :

Эта версия набора данных Wikipedia Toxicity Subtypes предоставляет доступ к метке первичной токсичности, а также к пяти меткам подтипа токсичности, аннотированным работниками толпы. Метки подтипа токсичности и токсичности представляют собой двоичные значения (0 или 1), указывающие, присвоили ли большинство аннотаторов эти атрибуты тексту комментария.

Комментарии в этом наборе данных взяты из архива комментариев на страницах обсуждения Википедии. Jigsaw пометил их как токсичность, так и множество подтипов токсичности, в том числе серьезную токсичность, непристойность, угрожающие выражения, оскорбительные выражения и атаки на идентичность. Этот набор данных является копией данных, выпущенных для испытания Jigsaw Toxic Comment Classification Challenge на Kaggle, с неизменным обучающим набором и объединенным тестовым набором данных с test_labels, выпущенным после окончания конкурса. Данные теста, не используемые для оценки, были удалены. Этот набор данных выпущен под CC0, как и основной текст комментария.

См. Документацию Kaggle или https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 для получения дополнительных сведений.

Трещина Примеры
'test' 63 978
'train' 159 571
  • Особенности :
FeaturesDict({
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • Контролируемые ключи (см. as_supervised doc ): ('text', 'toxicity')

  • Цитата :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}