гражданские_комментарии

  • Описание :

Эта версия набора данных CivilComments обеспечивает доступ к семи основным меткам, которые были аннотированы краудфандинговыми работниками, а токсичность и другие теги имеют значение от 0 до 1, указывающее долю аннотаторов, которые присвоили эти атрибуты тексту комментария.

Другие теги доступны только для части входных примеров. В настоящее время они игнорируются для основного набора данных; набор CivilCommentsIdentities включает эти метки, но состоит только из подмножества данных с ними. Другие атрибуты, которые были частью исходной версии CivilComments, включены только в необработанные данные. См. документацию Kaggle для получения более подробной информации о доступных функциях.

Комментарии в этом наборе данных взяты из архива платформы Civil Comments, плагина комментариев для независимых новостных сайтов. Эти публичные комментарии создавались в период с 2015 по 2017 год и появились примерно на 50 англоязычных новостных сайтах по всему миру. Когда Civil Comment закрылся в 2017 году, они решили сделать публичные комментарии доступными в постоянном открытом архиве, чтобы можно было проводить исследования в будущем. Исходные данные, опубликованные на figshare, включают в себя текст публичного комментария, некоторые связанные метаданные, такие как идентификаторы статей, идентификаторы публикаций, временные метки и созданные комментаторами «вежливые» ярлыки, но не включают идентификаторы пользователей. Jigsaw расширил этот набор данных, добавив дополнительные метки для токсичности, упоминания личности, а также скрытого оскорбительного характера. Этот набор данных является точной копией данных, опубликованных для испытания Jigsaw Unintended Bias in Toxicity Classification Kaggle. Этот набор данных выпущен под лицензией CC0, как и основной текст комментария.

Для комментариев, у которых есть parent_id также в данных гражданских комментариев, текст предыдущего комментария предоставляется как функция «parent_text». Обратите внимание, что разделение было сделано без учета этой информации, поэтому использование предыдущих комментариев может привести к утечке некоторой информации. Аннотаторы не имели доступа к исходному тексту при создании надписей.

  • Домашняя страница : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • Исходный код : tfds.text.CivilComments

  • Версии :

    • 1.0.0 : Первоначальный полный выпуск.
    • 1.0.1 : Добавлен уникальный идентификатор для каждого комментария.
    • 1.1.0 : добавлена ​​конфигурация CivilCommentsCovert.
    • 1.1.1 : добавлена ​​конфигурация CivilCommentsCovert с правильной контрольной суммой.
    • 1.1.2 : добавлена ​​отдельная ссылка для набора данных CivilCommentsCovert.
    • 1.1.3 : Исправлены типы идентификаторов с float на string.
    • 1.2.0 : Добавлены токсичные диапазоны, контекст и функции текста родительского комментария.
    • 1.2.1 : исправлено неправильное форматирование при разделении контекста.
    • 1.2.2 : Обновлено, чтобы отразить контекст только с разделением поезда.
    • 1.2.3 : добавлено предупреждение в CivilCommentsCovert, поскольку мы исправим проблему с данными.
    • 1.2.4 (по умолчанию): добавление идентификаторов публикаций и временных меток комментариев.
  • Размер загрузки : 427.41 MiB

  • Рисунок ( tfds.show_examples ): не поддерживается.

Civil_comments/CivilComments (конфигурация по умолчанию)

  • Описание конфигурации : набор CivilComments включает все данные, но только семь основных меток (токсичность, серьезная_токсичность, непристойность, угроза, оскорбление, идентичность_атака и сексуальное_явное).

  • Размер набора данных : 1.54 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 97 320
'train' 1 804 874
'validation' 97 320
  • Структура функции :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Документация по функциям :
Особенность Сорт Форма Dтип Описание
ОсобенностиDict
article_id Тензор int32
Дата создания Тензор нить
идентификатор Тензор нить
identity_attack Тензор поплавок32
оскорблять Тензор поплавок32
непристойный Тензор поплавок32
parent_id Тензор int32
parent_text Текст нить
id_публикации Тензор нить
суровая_токсичность Тензор поплавок32
сексуальный_explicit Тензор поплавок32
текст Текст нить
угроза Тензор поплавок32
токсичность Тензор поплавок32
  • Цитата :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/CivilCommentsIdentities

  • Описание конфигурации : Набор CivilCommentsIdentities включает расширенный набор меток идентификации в дополнение к основным семи меткам. Однако он включает только подмножество (примерно четверть) данных со всеми этими функциями.

  • Размер набора данных : 654.97 MiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 21 577
'train' 405 130
'validation' 21 293
  • Структура функции :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • Документация по функциям :
Особенность Сорт Форма Dтип Описание
ОсобенностиDict
article_id Тензор int32
азиатский Тензор поплавок32
атеист Тензор поплавок32
бисексуал Тензор поплавок32
черный Тензор поплавок32
буддист Тензор поплавок32
христианин Тензор поплавок32
Дата создания Тензор нить
женский Тензор поплавок32
гетеросексуальный Тензор поплавок32
индус Тензор поплавок32
гомосексуалист_гей_или_лесбиянка Тензор поплавок32
идентификатор Тензор нить
identity_attack Тензор поплавок32
оскорблять Тензор поплавок32
Intelligent_or_learning_disability Тензор поплавок32
еврейский Тензор поплавок32
латиноамериканец Тензор поплавок32
мужской Тензор поплавок32
мусульманин Тензор поплавок32
непристойный Тензор поплавок32
other_disability Тензор поплавок32
other_gender Тензор поплавок32
other_race_or_ethnicity Тензор поплавок32
другая_религия Тензор поплавок32
другая_сексуальная_ориентация Тензор поплавок32
parent_id Тензор int32
parent_text Текст нить
инвалидность Тензор поплавок32
психиатрическое_или_психическое_заболевание Тензор поплавок32
id_публикации Тензор нить
суровая_токсичность Тензор поплавок32
сексуальный_explicit Тензор поплавок32
текст Текст нить
угроза Тензор поплавок32
токсичность Тензор поплавок32
трансгендер Тензор поплавок32
белый Тензор поплавок32
  • Цитата :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/CivilCommentsCovert

  • Описание конфигурации : ПРЕДУПРЕЖДЕНИЕ: существует потенциальная проблема с качеством данных в CivilCommentsCovert, над устранением которой мы активно работаем (28.06.22); базовые данные могут измениться!

Набор CivilCommentsCovert является подмножеством CivilCommentsIdentities, в котором примерно 20 % обучающих и тестовых разделов дополнительно аннотируются для скрытой оскорбительности, в дополнение к меткам токсичности и идентификации. Оценщиков попросили классифицировать комментарии как явно, неявно, не оскорбительно или не уверен, что они оскорбительны, а также содержат ли они различные типы скрытой оскорбительности. Полная процедура аннотирования подробно описана в готовящемся документе по адресу https://sites.google.com/corp/view/hciandnlp/accepted-papers .

  • Размер набора данных : 97.83 MiB

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 2455
'train' 48 074
  • Структура функции :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • Документация по функциям :
Особенность Сорт Форма Dтип Описание
ОсобенностиDict
article_id Тензор int32
азиатский Тензор поплавок32
атеист Тензор поплавок32
бисексуал Тензор поплавок32
черный Тензор поплавок32
буддист Тензор поплавок32
христианин Тензор поплавок32
covert_emoticons_emojis Тензор поплавок32
скрытый_юмор Тензор поплавок32
hidden_masked_harm Тензор поплавок32
скрытая_микроагрессия Тензор поплавок32
скрытое_обфускация Тензор поплавок32
скрытое_политическое Тензор поплавок32
скрытый_сарказм Тензор поплавок32
Дата создания Тензор нить
явно_оскорбительный Тензор поплавок32
женский Тензор поплавок32
гетеросексуальный Тензор поплавок32
индус Тензор поплавок32
гомосексуалист_гей_или_лесбиянка Тензор поплавок32
идентификатор Тензор нить
identity_attack Тензор поплавок32
implicitly_offensive Тензор поплавок32
оскорблять Тензор поплавок32
Intelligent_or_learning_disability Тензор поплавок32
еврейский Тензор поплавок32
латиноамериканец Тензор поплавок32
мужской Тензор поплавок32
мусульманин Тензор поплавок32
не_наступление Тензор поплавок32
not_sure_offensive Тензор поплавок32
непристойный Тензор поплавок32
other_disability Тензор поплавок32
other_gender Тензор поплавок32
other_race_or_ethnicity Тензор поплавок32
другая_религия Тензор поплавок32
другая_сексуальная_ориентация Тензор поплавок32
parent_id Тензор int32
parent_text Текст нить
инвалидность Тензор поплавок32
психиатрическое_или_психическое_заболевание Тензор поплавок32
id_публикации Тензор нить
суровая_токсичность Тензор поплавок32
сексуальный_explicit Тензор поплавок32
текст Текст нить
угроза Тензор поплавок32
токсичность Тензор поплавок32
трансгендер Тензор поплавок32
белый Тензор поплавок32
  • Цитата :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

Civil_comments/CivilCommentsToxicSpans

  • Описание конфигурации : Токсичные диапазоны CivilComments — это подмножество CivilComments, помеченное на уровне диапазона — индексы границ всех символов (кодовых точек Unicode), которые были помечены как токсичные большинством аннотаторов, возвращаются в функции «промежутки».

  • Размер набора данных : 5.81 MiB

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 7939
'validation' 682
  • Структура функции :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Сорт Форма Dтип Описание
ОсобенностиDict
article_id Тензор int32
Дата создания Тензор нить
идентификатор Тензор нить
parent_id Тензор int32
parent_text Текст нить
id_публикации Тензор нить
охватывает Тензор (Никто,) int32
текст Текст нить
  • Цитата :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

Civil_comments/CivilCommentsInContext

  • Описание конфигурации : CivilComments in Context — это подмножество CivilComments, которое было помечено путем предоставления доступа к маркировщикам parent_text. Он включает функцию contextual_toxicity.

  • Размер набора данных : 9.63 MiB

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 9969
  • Структура функции :
FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Документация по функциям :
Особенность Сорт Форма Dтип Описание
ОсобенностиDict
article_id Тензор int32
контекстная_токсичность Тензор поплавок32
Дата создания Тензор нить
идентификатор Тензор нить
identity_attack Тензор поплавок32
оскорблять Тензор поплавок32
непристойный Тензор поплавок32
parent_id Тензор int32
parent_text Текст нить
id_публикации Тензор нить
суровая_токсичность Тензор поплавок32
сексуальный_explicit Тензор поплавок32
текст Текст нить
угроза Тензор поплавок32
токсичность Тензор поплавок32
  • Цитата :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}