O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

civil_comments

  • Descrição:

Esta versão do CivilComments Dataset fornece acesso aos sete rótulos primários que foram anotados por funcionários da multidão, a toxicidade e outras tags são um valor entre 0 e 1 indicando a fração de anotadores que atribuíram esses atributos ao texto do comentário.

As outras tags estão disponíveis apenas para uma fração dos exemplos de entrada. Eles são atualmente ignorados para o conjunto de dados principal; o conjunto CivilCommentsIdentities inclui esses rótulos, mas consiste apenas no subconjunto dos dados com eles. Os outros atributos que faziam parte do lançamento original do CivilComments são incluídos apenas nos dados brutos. Consulte a documentação do Kaggle para obter mais detalhes sobre os recursos disponíveis.

Os comentários neste conjunto de dados vêm de um arquivo da plataforma Civil Comments, um plugin de comentários para sites de notícias independentes. Esses comentários públicos foram criados de 2015 a 2017 e apareceram em aproximadamente 50 sites de notícias em inglês em todo o mundo. Quando os Comentários Civis foram encerrados em 2017, eles optaram por disponibilizar os comentários públicos em um arquivo aberto duradouro para permitir pesquisas futuras. Os dados originais, publicados no figshare, incluem o texto de comentário público, alguns metadados associados, como IDs de artigo, carimbos de data / hora e rótulos de "civilidade" gerados por comentários, mas não incluem IDs de usuário. A Jigsaw estendeu esse conjunto de dados adicionando rótulos adicionais para toxicidade, menções de identidade, bem como ofensiva oculta. Este conjunto de dados é uma réplica exata dos dados liberados para o desafio Jigsaw Unintended Bias in Toxicity Classification Kaggle. Este conjunto de dados é lançado sob CC0, assim como o texto do comentário subjacente.

civil_comments / CivilComments (configuração padrão)

  • Configuração Descrição: O CivilComments definidos aqui inclui todos os dados, mas apenas o básicos sete rótulos (toxicidade, severe_toxicity, obsceno, ameaça, insulto, identity_attack e sexual_explicit).

  • Dataset size: 964.77 MiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'test' 97.320
'train' 1.804.874
'validation' 97.320
  • Características:
FeaturesDict({
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • citação:
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments / CivilCommentsIdentities

  • Configuração Descrição: O CivilCommentsIdentities definidos aqui inclui um vasto conjunto de etiquetas de identificação, além das básicas sete etiquetas. No entanto, ele inclui apenas o subconjunto (cerca de um quarto) dos dados com todos esses recursos.

  • Dataset size: 511.32 MiB

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'test' 21.577
'train' 405.130
'validation' 21.293
  • Características:
FeaturesDict({
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • citação:
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments / CivilCommentsCovert

  • Configuração Descrição: O conjunto CivilCommentsCovert é um subconjunto de CivilCommentsIdentities com ~ 20% das divisões de comboios e de ensaio ainda mais anotados para offensiveness encoberta, em adição à toxicidade e de identidade etiquetas. Os avaliadores foram solicitados a categorizar os comentários como explícita, implícita, não ou não certa se ofensiva, bem como se continham diferentes tipos de ofensiva encoberta. O procedimento anotação completa é detalhada em um próximo papel na https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • Dataset tamanho: 79.74 MiB

  • Cache-Auto ( documentação ): Sim

  • desdobramentos:

Dividir Exemplos
'test' 2.455
'train' 48.074
  • Características:
FeaturesDict({
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'covert_emoticons_emojis': tf.float32,
    'covert_humor': tf.float32,
    'covert_masked_harm': tf.float32,
    'covert_microaggression': tf.float32,
    'covert_obfuscation': tf.float32,
    'covert_political': tf.float32,
    'covert_sarcasm': tf.float32,
    'explicitly_offensive': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'implicitly_offensive': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'not_offensive': tf.float32,
    'not_sure_offensive': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • citação:
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}