- Описание :
Эта версия набора данных Wikipedia Toxicity Subtypes обеспечивает доступ к метке первичной токсичности, а также к пяти меткам подтипа токсичности, аннотированным работниками толпы. Метки подтипа токсичности и токсичности представляют собой двоичные значения (0 или
1) указывает, присвоили ли большинство аннотаторов эти атрибуты тексту комментария.
Комментарии в этом наборе данных взяты из архива комментариев на страницах обсуждения Википедии. Jigsaw пометил их на предмет токсичности, а также различных подтипов токсичности, включая тяжелую токсичность, непристойность, угрожающие выражения, оскорбительные выражения и атаки на идентичность. Этот набор данных является копией данных, выпущенных для испытания Jigsaw Toxic Comment Classification Challenge на Kaggle, при этом обучающий набор не изменился, а тестовый набор данных объединен с test_labels, выпущенным после окончания конкурса. Данные теста, не используемые для оценки, были удалены. Этот набор данных выпущен под CC0, как и основной текст комментария.
См. Документацию Kaggle или https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 для получения дополнительных сведений.
Домашняя страница : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
Исходный код :
tfds.text.WikipediaToxicitySubtypes
Версии :
-
0.2.0
(по умолчанию): обновленные функции для согласованности с набором данных CivilComments.
-
Размер загрузки :
36.85 MiB
Размер набора данных :
118.09 MiB
Автоматическое кэширование ( документация ): Да
Сплит :
Трещина | Примеры |
---|---|
'test' | 63 978 |
'train' | 159 571 |
- Особенности :
FeaturesDict({
'identity_attack': tf.float32,
'insult': tf.float32,
'obscene': tf.float32,
'severe_toxicity': tf.float32,
'text': Text(shape=(), dtype=tf.string),
'threat': tf.float32,
'toxicity': tf.float32,
})
Контролируемые ключи (см.
as_supervised
doc ):('text', 'toxicity')
Цитата :
@inproceedings{10.1145/3038912.3052591,
author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
title = {Ex Machina: Personal Attacks Seen at Scale},
year = {2017},
isbn = {9781450349130},
publisher = {International World Wide Web Conferences Steering Committee},
address = {Republic and Canton of Geneva, CHE},
url = {https://doi.org/10.1145/3038912.3052591},
doi = {10.1145/3038912.3052591},
booktitle = {Proceedings of the 26th International Conference on World Wide Web},
pages = {1391-1399},
numpages = {9},
keywords = {online discussions, wikipedia, online harassment},
location = {Perth, Australia},
series = {WWW '17}
}
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):