Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

civil_comments

  • Deskripsi :

Versi Kumpulan Data CivilComments ini menyediakan akses ke tujuh label utama yang diberi keterangan oleh pekerja kerumunan, toksisitas dan tag lainnya adalah nilai antara 0 dan 1 yang menunjukkan pecahan anotator yang menetapkan atribut ini ke teks komentar.

Tag lain hanya tersedia untuk sebagian kecil dari contoh masukan. Mereka saat ini diabaikan untuk kumpulan data utama; set CivilCommentsIdentities menyertakan label tersebut, tetapi hanya terdiri dari subset data dengan label tersebut. Atribut lain yang merupakan bagian dari rilis CivilComments asli hanya disertakan dalam data mentah. Lihat dokumentasi Kaggle untuk detail lebih lanjut tentang fitur yang tersedia.

Komentar dalam kumpulan data ini berasal dari arsip platform Komentar Sipil, plugin komentar untuk situs berita independen. Komentar publik ini dibuat dari 2015 - 2017 dan muncul di sekitar 50 situs berita berbahasa Inggris di seluruh dunia. Ketika Komentar Sipil ditutup pada tahun 2017, mereka memilih untuk membuat komentar publik tersedia dalam arsip terbuka yang tahan lama untuk memungkinkan penelitian di masa mendatang. Data asli, yang diterbitkan di figshare, termasuk teks komentar publik, beberapa metadata terkait seperti ID artikel, stempel waktu, dan label "kesopanan" yang dibuat oleh pemberi komentar, tetapi tidak menyertakan ID pengguna. Jigsaw memperluas kumpulan data ini dengan menambahkan label tambahan untuk toksisitas dan penyebutan identitas. Kumpulan data ini adalah replika persis dari data yang dirilis untuk Jigsaw Unintended Bias dalam tantangan Toxicity Classification Kaggle. Kumpulan data ini dirilis di bawah CC0, seperti teks komentar yang mendasarinya.

@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments / CivilComments (konfigurasi default)

  • Deskripsi konfigurasi : Kumpulan CivilComments di sini mencakup semua data, tetapi hanya tujuh label dasar (toksisitas, toksisitas_berat, cabul, ancaman, penghinaan, serangan_identitas, dan eksplisit_seksual).

  • Ukuran 929.13 MiB data : 929.13 MiB

  • Split :

Membagi Contoh
'test' 97.320
'train' 1.804.874
'validation' 97.320
  • Fitur :
FeaturesDict({
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})

civil_comments / CivilCommentsIdentities

  • Deskripsi konfigurasi : The CivilCommentsIdentities yang ditetapkan di sini menyertakan serangkaian label identitas yang diperluas selain tujuh label dasar. Namun, ini hanya menyertakan subset (kira-kira seperempat) data dengan semua fitur ini.

  • Ukuran 503.34 MiB data : 503.34 MiB

  • Split :

Membagi Contoh
'test' 21.577
'train' 405.130
'validation' 21.293
  • Fitur :
FeaturesDict({
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})