wikipedia_toxicity_subtypes

  • 説明

このバージョンのWikipediaToxicity Subtypesデータセットは、一次毒性ラベル、および群衆労働者によって注釈が付けられた5つの毒性サブタイプラベルへのアクセスを提供します。毒性および毒性サブタイプラベルは2進値(0または

1)アノテーターの大多数がその属性をコメントテキストに割り当てたかどうかを示します。

このデータセットのコメントは、ウィキペディアのトークページのコメントのアーカイブからのものです。これらは、ジグソーによって毒性、および重度の毒性、猥褻、脅迫的な言葉、侮辱的な言葉、アイデンティティ攻撃などのさまざまな毒性サブタイプについて注釈が付けられています。このデータセットは、KaggleのJigsaw Toxic Comment Classification Challengeでリリースされたデータのレプリカであり、トレーニングセットは変更されていません。テストデータセットは、コンテスト終了後にリリースされたtest_labelsとマージされています。スコアリングに使用されなかったテストデータは削除されました。このデータセットは、基になるコメントテキストと同様に、CC0でリリースされます。

Kaggleのマニュアルまたは参照してくださいhttps://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973の詳細については。

スプリット
'test' 63,978
'train' 159,571
  • 特長
FeaturesDict({
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • 引用
@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}