Эта страница была переведа с помощью Cloud Translation API.
Switch to English

civil_comments

  • Описание :

Эта версия набора данных CivilComments предоставляет доступ к основным семи меткам, которые были аннотированы работниками толпы, токсичность и другие теги - это значение от 0 до 1, указывающее долю аннотаторов, которые присвоили эти атрибуты тексту комментария.

Остальные теги доступны только для части примеров ввода. В настоящее время они игнорируются для основного набора данных; набор CivilCommentsIdentities включает эти метки, но состоит только из подмножества данных с ними. Другие атрибуты, которые были частью исходной версии CivilComments, включены только в необработанные данные. См. Документацию Kaggle для получения более подробной информации о доступных функциях.

Комментарии в этом наборе данных взяты из архива платформы Civil Comments, плагина комментирования для независимых новостных сайтов. Эти публичные комментарии были созданы в период с 2015 по 2017 год и появились примерно на 50 англоязычных новостных сайтах по всему миру. Когда в 2017 году Civil Comments закрылись, они решили сделать общедоступные комментарии доступными в постоянном открытом архиве, чтобы обеспечить возможность будущих исследований. Исходные данные, опубликованные на figshare, включают текст общественного комментария, некоторые связанные метаданные, такие как идентификаторы статей, временные метки и ярлыки «вежливости», созданные комментаторами, но не включают идентификаторы пользователей. Jigsaw расширил этот набор данных, добавив дополнительные метки для упоминания токсичности и идентичности. Этот набор данных является точной копией данных, выпущенных для задачи Jigsaw Unintended Bias in Toxicity Classification Kaggle. Этот набор данных выпущен под CC0, как и основной текст комментария.

@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments / CivilComments (конфигурация по умолчанию)

  • Описание конфигурации : набор CivilComments включает все данные, но только основные семь ярлыков (токсичность, серьезная_отоксичность, непристойный, угроза, оскорбление, личность_атака и сексуальное_исключение).

  • Размер набора данных : 929.13 MiB

  • Сплит :

Трещина Примеры
'test' 97 320
'train' 1 804 874
'validation' 97 320
  • Особенности :
FeaturesDict({
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})

civil_comments / CivilCommentsIdentities

  • Описание конфигурации : набор CivilCommentsIdentities включает расширенный набор идентификационных меток в дополнение к основным семи меткам. Однако он включает только часть (примерно четверть) данных со всеми этими функциями.

  • Размер набора данных : 503.34 MiB

  • Сплит :

Трещина Примеры
'test' 21 577
'train' 405 130
'validation' 21 293
  • Особенности :
FeaturesDict({
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})