Civil_comments

  • 説明

このバージョンのCivilCommentsデータセットは、群集労働者によって注釈が付けられた主要な7つのラベルへのアクセスを提供します。毒性およびその他のタグは、コメントテキストにこれらの属性を割り当てた注釈者の割合を示す0〜1の値です。

他のタグは、入力例の一部でのみ使用できます。現在、メインデータセットでは無視されています。 CivilCommentsIdentitiesセットにはこれらのラベルが含まれていますが、それらを含むデータのサブセットのみで構成されています。元のCivilCommentsリリースの一部であった他の属性は、生データにのみ含まれています。利用可能な機能の詳細については、Kaggleのドキュメントを参照してください。

このデータセットのコメントは、独立したニュースサイトのコメントプラグインであるCivilCommentsプラットフォームのアーカイブからのものです。これらのパブリックコメントは2015年から2017年にかけて作成され、世界中の約50の英語ニュースサイトに掲載されました。 2017年にCivilCommentsが閉鎖されたとき、彼らは、将来の研究を可能にするために、公開コメントを永続的なオープンアーカイブで利用できるようにすることを選択しました。 figshareで公開された元のデータには、パブリックコメントテキスト、記事ID、タイムスタンプ、コメント投稿者が生成した「市民」ラベルなどの関連メタデータが含まれますが、ユーザーIDは含まれません。ジグソーパズルは、毒性、アイデンティティの言及、および秘密の攻撃性のラベルを追加することにより、このデータセットを拡張しました。このデータセットは、毒性分類Kaggleチャレンジにおけるジグソーの意図しないバイアスのためにリリースされたデータの正確なレプリカです。このデータセットは、基になるコメントテキストと同様に、CC0でリリースされます。

Civil_comments / CivilComments(デフォルト設定)

  • コンフィグの説明:ここで設定しCivilCommentsは、すべてのデータが含まれていますが、基本的な7ラベル(毒性、severe_toxicity、卑猥、脅威、侮辱、identity_attack、およびsexual_explicit)。

  • データセットのサイズ959.64 MiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'test' 97,320
'train' 1,804,874
'validation' 97,320
  • 特長
FeaturesDict({
    'id': tf.float32,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • 引用
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments / CivilCommentsIdentities

  • コンフィグの説明:ここで設定しCivilCommentsIdentitiesは、基本的な7枚のラベルに加えて、アイデンティティのラベルの拡張セットが含まれています。ただし、これらすべての機能を備えたデータのサブセット(約4分の1)のみが含まれます。

  • データセットのサイズ510.17 MiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'test' 21,577
'train' 405,130
'validation' 21,293
  • 特長
FeaturesDict({
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.float32,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • 引用
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments / CivilCommentsCovert

  • コンフィグの説明:CivilCommentsCovertセットは毒性やアイデンティティのラベルに加えて、電車の〜20%とCivilCommentsIdentities、さらに秘密の不快のための注釈付きテスト分割のサブセットです。評価者は、コメントを明示的、暗黙的、わからない、または不快であるかどうかわからないもの、およびさまざまな種類の秘密の不快感が含まれているかどうかの1つとして分類するように求められました。完全な注釈手順がで今後の論文に詳述されているhttps://sites.google.com/corp/view/hciandnlp/accepted-papers

  • データセットサイズ79.61 MiB

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'test' 2,455
'train' 48,074
  • 特長
FeaturesDict({
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'covert_emoticons_emojis': tf.float32,
    'covert_humor': tf.float32,
    'covert_masked_harm': tf.float32,
    'covert_microaggression': tf.float32,
    'covert_obfuscation': tf.float32,
    'covert_political': tf.float32,
    'covert_sarcasm': tf.float32,
    'explicitly_offensive': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.float32,
    'identity_attack': tf.float32,
    'implicitly_offensive': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'not_offensive': tf.float32,
    'not_sure_offensive': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • 引用
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}