Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

гражданские_комментарии

  • Описание :

Эта версия набора данных CivilComments обеспечивает доступ к семи основным меткам, которые были аннотированы краудфандинговыми работниками, а токсичность и другие теги имеют значение от 0 до 1, указывающее долю аннотаторов, которые присвоили эти атрибуты тексту комментария.

Другие теги доступны только для части входных примеров. В настоящее время они игнорируются для основного набора данных; набор CivilCommentsIdentities включает эти метки, но состоит только из подмножества данных с ними. Другие атрибуты, которые были частью исходной версии CivilComments, включены только в необработанные данные. См. документацию Kaggle для получения более подробной информации о доступных функциях.

Комментарии в этом наборе данных взяты из архива платформы Civil Comments, плагина комментариев для независимых новостных сайтов. Эти публичные комментарии создавались в период с 2015 по 2017 год и появились примерно на 50 англоязычных новостных сайтах по всему миру. Когда Civil Comment закрылся в 2017 году, они решили сделать публичные комментарии доступными в постоянном открытом архиве, чтобы можно было проводить исследования в будущем. Исходные данные, опубликованные на figshare, включают в себя текст общественного комментария, некоторые связанные метаданные, такие как идентификаторы статей, временные метки и созданные комментаторами «вежливые» ярлыки, но не включают идентификаторы пользователей. Jigsaw расширил этот набор данных, добавив дополнительные метки для токсичности, упоминания личности, а также скрытого оскорбительного характера. Этот набор данных является точной копией данных, опубликованных для испытания Jigsaw Unintended Bias in Toxicity Classification Kaggle. Этот набор данных выпущен под лицензией CC0, как и основной текст комментария.

Для комментариев, у которых есть parent_id также в данных гражданских комментариев, текст предыдущего комментария предоставляется как функция «parent_text». Обратите внимание, что разделение было сделано без учета этой информации, поэтому использование предыдущих комментариев может привести к утечке некоторой информации. Аннотаторы не имели доступа к исходному тексту при создании надписей.

  • Домашняя страница : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • Исходный код : tfds.text.CivilComments

  • Версии :

    • 1.0.0 : Первоначальный полный выпуск.
    • 1.0.1 : Добавлен уникальный идентификатор для каждого комментария.
    • 1.1.0 : добавлена ​​конфигурация CivilCommentsCovert.
    • 1.1.1 : добавлена ​​конфигурация CivilCommentsCovert с правильной контрольной суммой.
    • 1.1.2 : добавлена ​​отдельная ссылка для набора данных CivilCommentsCovert.
    • 1.1.3 : Исправлены типы идентификаторов с float на string.
    • 1.2.0 : Добавлены токсичные диапазоны, контекст и функции текста родительского комментария.
    • 1.2.1 : исправлено неправильное форматирование при разделении контекста.
    • 1.2.2 (по умолчанию) : обновить, чтобы отразить контекст только с разделением поезда.
  • Размер загрузки : 427.41 MiB

  • Рисунок ( tfds.show_examples ): не поддерживается.

Civil_comments/CivilComments (конфигурация по умолчанию)

  • Описание конфигурации : набор CivilComments включает все данные, но только семь основных меток (токсичность, серьезная_токсичность, непристойность, угроза, оскорбление, идентичность_атака и сексуальное_явное).

  • Размер набора данных : 1.39 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 97 320
'train' 1 804 874
'validation' 97 320
  • Структура функции :
FeaturesDict({
    'article_id': tf.int32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
article_id Тензор tf.int32
я бы Тензор tf.string
identity_attack Тензор tf.float32
оскорблять Тензор tf.float32
непристойный Тензор tf.float32
parent_id Тензор tf.int32
parent_text Текст tf.string
суровая_токсичность Тензор tf.float32
сексуальный_explicit Тензор tf.float32
текст Текст tf.string
угроза Тензор tf.float32
токсичность Тензор tf.float32
  • Цитата :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/CivilCommentsIdentities

  • Описание конфигурации : Набор CivilCommentsIdentities включает расширенный набор меток идентификации в дополнение к основным семи меткам. Однако он включает только подмножество (примерно четверть) данных со всеми этими функциями.

  • Размер набора данных : 622.02 MiB .

  • Автоматическое кэширование ( документация ): Нет

  • Сплиты :

Расколоть Примеры
'test' 21 577
'train' 405 130
'validation' 21 293
  • Структура функции :
FeaturesDict({
    'article_id': tf.int32,
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
article_id Тензор tf.int32
азиатский Тензор tf.float32
атеист Тензор tf.float32
бисексуал Тензор tf.float32
чернить Тензор tf.float32
буддист Тензор tf.float32
христианин Тензор tf.float32
женский Тензор tf.float32
гетеросексуальный Тензор tf.float32
индус Тензор tf.float32
гомосексуалист_гей_или_лесбиянка Тензор tf.float32
я бы Тензор tf.string
identity_attack Тензор tf.float32
оскорблять Тензор tf.float32
Intelligent_or_learning_disability Тензор tf.float32
еврейский Тензор tf.float32
латиноамериканец Тензор tf.float32
мужчина Тензор tf.float32
мусульманин Тензор tf.float32
непристойный Тензор tf.float32
other_disability Тензор tf.float32
other_gender Тензор tf.float32
other_race_or_ethnicity Тензор tf.float32
другая_религия Тензор tf.float32
другая_сексуальная_ориентация Тензор tf.float32
parent_id Тензор tf.int32
parent_text Текст tf.string
инвалидность Тензор tf.float32
психиатрическое_или_психическое_заболевание Тензор tf.float32
суровая_токсичность Тензор tf.float32
сексуальный_explicit Тензор tf.float32
текст Текст tf.string
угроза Тензор tf.float32
токсичность Тензор tf.float32
трансгендер Тензор tf.float32
белый Тензор tf.float32
  • Цитата :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/CivilCommentsCovert

  • Описание конфигурации : набор CivilCommentsCovert представляет собой подмножество CivilCommentsIdentities, в котором примерно 20 % обучающих и тестовых разделов дополнительно аннотированы для скрытой оскорбительности, в дополнение к меткам токсичности и идентификации. Оценщиков попросили классифицировать комментарии как явно, неявно, не оскорбительно или не уверен, что они оскорбительны, а также содержат ли они различные типы скрытой оскорбительности. Полная процедура аннотирования подробно описана в готовящемся документе по адресу https://sites.google.com/corp/view/hciandnlp/accepted-papers .

  • Размер набора данных : 94.12 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 2455
'train' 48 074
  • Структура функции :
FeaturesDict({
    'article_id': tf.int32,
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'covert_emoticons_emojis': tf.float32,
    'covert_humor': tf.float32,
    'covert_masked_harm': tf.float32,
    'covert_microaggression': tf.float32,
    'covert_obfuscation': tf.float32,
    'covert_political': tf.float32,
    'covert_sarcasm': tf.float32,
    'explicitly_offensive': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'implicitly_offensive': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'not_offensive': tf.float32,
    'not_sure_offensive': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
article_id Тензор tf.int32
азиатский Тензор tf.float32
атеист Тензор tf.float32
бисексуал Тензор tf.float32
чернить Тензор tf.float32
буддист Тензор tf.float32
христианин Тензор tf.float32
covert_emoticons_emojis Тензор tf.float32
скрытый_юмор Тензор tf.float32
hidden_masked_harm Тензор tf.float32
скрытая_микроагрессия Тензор tf.float32
скрытое_обфускация Тензор tf.float32
скрытое_политическое Тензор tf.float32
скрытый_сарказм Тензор tf.float32
явно_оскорбительный Тензор tf.float32
женский Тензор tf.float32
гетеросексуальный Тензор tf.float32
индус Тензор tf.float32
гомосексуалист_гей_или_лесбиянка Тензор tf.float32
я бы Тензор tf.string
identity_attack Тензор tf.float32
implicitly_offensive Тензор tf.float32
оскорблять Тензор tf.float32
Intelligent_or_learning_disability Тензор tf.float32
еврейский Тензор tf.float32
латиноамериканец Тензор tf.float32
мужчина Тензор tf.float32
мусульманин Тензор tf.float32
не_наступление Тензор tf.float32
not_sure_offensive Тензор tf.float32
непристойный Тензор tf.float32
other_disability Тензор tf.float32
other_gender Тензор tf.float32
other_race_or_ethnicity Тензор tf.float32
другая_религия Тензор tf.float32
другая_сексуальная_ориентация Тензор tf.float32
parent_id Тензор tf.int32
parent_text Текст tf.string
инвалидность Тензор tf.float32
психиатрическое_или_психическое_заболевание Тензор tf.float32
суровая_токсичность Тензор tf.float32
сексуальный_explicit Тензор tf.float32
текст Текст tf.string
угроза Тензор tf.float32
токсичность Тензор tf.float32
трансгендер Тензор tf.float32
белый Тензор tf.float32
  • Цитата :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

Civil_comments/CivilCommentsToxicSpans

  • Описание конфигурации : Токсичные диапазоны CivilComments — это подмножество CivilComments, помеченное на уровне диапазона — индексы границ всех символов (кодовых точек Unicode), которые были помечены как токсичные большинством аннотаторов, возвращаются в функции «промежутки».

  • Размер набора данных : 5.03 MiB

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 2000
'train' 7939
'validation' 682
  • Структура функции :
FeaturesDict({
    'article_id': tf.int32,
    'id': tf.string,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'spans': Tensor(shape=(None,), dtype=tf.int32),
    'text': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
article_id Тензор tf.int32
я бы Тензор tf.string
parent_id Тензор tf.int32
parent_text Текст tf.string
охватывает Тензор (Никто,) tf.int32
текст Текст tf.string
  • Цитата :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

Civil_comments/CivilCommentsInContext

  • Описание конфигурации : CivilComments in Context — это подмножество CivilComments, которое было помечено путем предоставления доступа к маркировщикам parent_text. Он включает функцию contextual_toxicity.

  • Размер набора данных : 8.90 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'train' 9969
  • Структура функции :
FeaturesDict({
    'article_id': tf.int32,
    'contextual_toxicity': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
article_id Тензор tf.int32
контекстная_токсичность Тензор tf.float32
я бы Тензор tf.string
identity_attack Тензор tf.float32
оскорблять Тензор tf.float32
непристойный Тензор tf.float32
parent_id Тензор tf.int32
parent_text Текст tf.string
суровая_токсичность Тензор tf.float32
сексуальный_explicit Тензор tf.float32
текст Текст tf.string
угроза Тензор tf.float32
токсичность Тензор tf.float32
  • Цитата :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}