sivil_yorumlar

  • Açıklama :

CivilComments Veri Kümesinin bu sürümü, kalabalık çalışanlar tarafından not eklenen birincil yedi etikete erişim sağlar, toksisite ve diğer etiketler 0 ile 1 arasında bir değerdir ve bu öznitelikleri yorum metnine atayan açıklayıcıların oranını gösterir.

Diğer etiketler, giriş örneklerinin yalnızca bir kısmı için kullanılabilir. Şu anda ana veri kümesi için yok sayılırlar; CivilCommentsIdentities kümesi bu etiketleri içerir, ancak yalnızca bunlarla birlikte verilerin alt kümesinden oluşur. Orijinal CivilComments sürümünün parçası olan diğer nitelikler yalnızca ham verilere dahil edilmiştir. Kullanılabilir özellikler hakkında daha fazla ayrıntı için Kaggle belgelerine bakın.

Bu veri setindeki yorumlar, bağımsız haber siteleri için bir yorum eklentisi olan Sivil Yorumlar platformunun bir arşivinden gelmektedir. Bu genel yorumlar 2015 - 2017 yılları arasında oluşturuldu ve dünya çapında yaklaşık 50 İngilizce haber sitesinde yayınlandı. Sivil Yorumlar 2017'de kapandığında, gelecekteki araştırmalara olanak sağlamak için kamuya açık yorumları kalıcı bir açık arşivde kullanıma sunmayı seçtiler. Figshare'de yayınlanan orijinal veriler, herkese açık yorum metnini, makale kimlikleri, zaman damgaları ve yorumcu tarafından oluşturulan "medeniyet" etiketleri gibi bazı ilişkili meta verileri içerir, ancak kullanıcı kimliklerini içermez. Jigsaw, bu veri setini toksisite, kimlik belirtme ve ayrıca gizli saldırganlık için ek etiketler ekleyerek genişletti. Bu veri seti, Toksisite Sınıflandırma Kaggle yarışmasında Jigsaw İstenmeyen Önyargı için yayınlanan verilerin tam bir kopyasıdır. Bu veri kümesi, temeldeki yorum metni gibi CC0 altında yayınlanır.

Sivil yorum verilerinde de parent_id olan yorumlar için, önceki yorumun metni "parent_text" özelliği olarak sağlanır. Bölmelerin bu bilgiler dikkate alınmadan yapıldığını unutmayın, bu nedenle önceki yorumları kullanmak bazı bilgileri sızdırabilir. Açıklama yapanların, etiketleri oluştururken üst metne erişimi yoktu.

  • Ana sayfa : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • Kaynak kodu : tfds.text.CivilComments

  • Sürümler :

    • 1.0.0 : İlk tam sürüm.
    • 1.0.1 : Her yorum için benzersiz bir kimlik eklendi.
    • 1.1.0 : CivilCommentsCovert yapılandırması eklendi.
    • 1.1.1 : Doğru sağlama toplamı ile CivilCommentsCovert yapılandırması eklendi.
    • 1.1.2 : CivilCommentsCovert veri seti için ayrı alıntı eklendi.
    • 1.1.3 : Floattan string'e id türleri düzeltildi.
    • 1.2.0 : Zehirli açıklıklar, bağlam ve ana yorum metni özellikleri ekleyin.
    • 1.2.1 : Bağlam bölmelerinde yanlış biçimlendirmeyi düzeltin.
    • 1.2.2 : Yalnızca bir tren bölünmesine sahip bağlamı yansıtacak şekilde güncelleme.
    • 1.2.3 (varsayılan) : Bir veri sorununu düzeltirken CivilCommentsCovert'a uyarı ekleyin.
  • İndirme boyutu : Unknown size

  • Veri kümesi boyutu : Unknown size

  • Otomatik önbelleğe alındı ​​( belgeler ): Bilinmiyor

  • Bölmeler :

Bölmek Örnekler

Civil_comments/CivilComments (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Burada ayarlanan CivilComments tüm verileri içerir, ancak yalnızca temel yedi etiketi içerir (toksisite, şiddetli_toksisite, müstehcen, tehdit, hakaret, kimlik_saldırı ve cinsel_açık).

  • Özellik yapısı :

FeaturesDict({
    'article_id': tf.int32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
makale_kimliği tensör tf.int32
İD tensör tf.string
kimlik_attack tensör tf.float32
hakaret etmek tensör tf.float32
müstehcen tensör tf.float32
ebeveyn_kimliği tensör tf.int32
parent_text Metin tf.string
şiddetli_toksisite tensör tf.float32
cinsel_açık tensör tf.float32
Metin Metin tf.string
tehdit tensör tf.float32
zehirlilik tensör tf.float32
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/CivilCommentsKimlikler

  • Yapılandırma açıklaması : Burada ayarlanan CivilCommentsIdentities, temel yedi etikete ek olarak genişletilmiş bir kimlik etiketleri kümesi içerir. Ancak, tüm bu özelliklere sahip verilerin yalnızca alt kümesini (kabaca dörtte birini) içerir.

  • Özellik yapısı :

FeaturesDict({
    'article_id': tf.int32,
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
makale_kimliği tensör tf.int32
Asya tensör tf.float32
ateist tensör tf.float32
biseksüel tensör tf.float32
siyah tensör tf.float32
Budist tensör tf.float32
hıristiyan tensör tf.float32
dişi tensör tf.float32
heteroseksüel tensör tf.float32
Hindu tensör tf.float32
homoseksüel_gay_or_lesbian tensör tf.float32
İD tensör tf.string
kimlik_attack tensör tf.float32
hakaret etmek tensör tf.float32
entelektüel_or_learning_disability tensör tf.float32
Yahudi tensör tf.float32
latin tensör tf.float32
erkek tensör tf.float32
Müslüman tensör tf.float32
müstehcen tensör tf.float32
other_disability tensör tf.float32
other_gender tensör tf.float32
other_race_or_etnisite tensör tf.float32
other_religion tensör tf.float32
other_seksüel_oryantasyon tensör tf.float32
ebeveyn_kimliği tensör tf.int32
parent_text Metin tf.string
fiziksel engel tensör tf.float32
psikiyatrik_veya_mental_hastalık tensör tf.float32
şiddetli_toksisite tensör tf.float32
cinsel_açık tensör tf.float32
Metin Metin tf.string
tehdit tensör tf.float32
zehirlilik tensör tf.float32
transseksüel tensör tf.float32
beyaz tensör tf.float32
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/CivilCommentsGizli

  • Yapılandırma açıklaması : UYARI: CivilCommentsCovert ile ilgili aktif olarak düzeltmeye çalıştığımız olası bir veri kalitesi sorunu var (28/06/22); temel veriler değişebilir!

CivilCommentsCovert seti, toksisite ve kimlik etiketlerine ek olarak, trenin ~%20'si ve test bölümlerinin daha fazla gizli saldırganlık için açıklamalı olduğu CivilCommentsIdentities'in bir alt kümesidir. Değerlendiricilerden yorumları açıkça, dolaylı olarak, değil veya rahatsız edici olup olmadığından emin değilim ve bunun yanı sıra farklı türde gizli saldırganlık içerip içermediği şeklinde sınıflandırmaları istendi. Tam açıklama prosedürü, https://sites.google.com/corp/view/hciandnlp/accepted-papers adresinde yakında çıkacak bir makalede ayrıntılı olarak açıklanmıştır.

  • Özellik yapısı :
FeaturesDict({
    'article_id': tf.int32,
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'covert_emoticons_emojis': tf.float32,
    'covert_humor': tf.float32,
    'covert_masked_harm': tf.float32,
    'covert_microaggression': tf.float32,
    'covert_obfuscation': tf.float32,
    'covert_political': tf.float32,
    'covert_sarcasm': tf.float32,
    'explicitly_offensive': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'implicitly_offensive': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'not_offensive': tf.float32,
    'not_sure_offensive': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
makale_kimliği tensör tf.int32
Asya tensör tf.float32
ateist tensör tf.float32
biseksüel tensör tf.float32
siyah tensör tf.float32
Budist tensör tf.float32
hıristiyan tensör tf.float32
covert_emoticons_emojis tensör tf.float32
gizli_humor tensör tf.float32
covert_masked_harm tensör tf.float32
gizli_mikrosaldırganlık tensör tf.float32
covert_obfuscation tensör tf.float32
gizli_politik tensör tf.float32
covert_sarcasm tensör tf.float32
açıkça_saldırgan tensör tf.float32
dişi tensör tf.float32
heteroseksüel tensör tf.float32
Hindu tensör tf.float32
homoseksüel_gay_or_lesbian tensör tf.float32
İD tensör tf.string
kimlik_attack tensör tf.float32
örtük_saldırgan tensör tf.float32
hakaret etmek tensör tf.float32
entelektüel_or_learning_disability tensör tf.float32
Yahudi tensör tf.float32
latin tensör tf.float32
erkek tensör tf.float32
Müslüman tensör tf.float32
saldırgan değil tensör tf.float32
not_sure_offensive tensör tf.float32
müstehcen tensör tf.float32
other_disability tensör tf.float32
other_gender tensör tf.float32
other_race_or_etnisite tensör tf.float32
other_religion tensör tf.float32
other_seksüel_oryantasyon tensör tf.float32
ebeveyn_kimliği tensör tf.int32
parent_text Metin tf.string
fiziksel engel tensör tf.float32
psikiyatrik_veya_mental_hastalık tensör tf.float32
şiddetli_toksisite tensör tf.float32
cinsel_açık tensör tf.float32
Metin Metin tf.string
tehdit tensör tf.float32
zehirlilik tensör tf.float32
transseksüel tensör tf.float32
beyaz tensör tf.float32
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

Civil_comments/CivilCommentsToxicSpans

  • Yapılandırma açıklaması : CivilComments Toxic Spans, CivilComments'ın yayılma düzeyinde etiketlenmiş bir alt kümesidir - ek açıklama yapanların çoğu tarafından toksik olarak etiketlenen tüm karakter (unicode kod noktaları) sınırlarının dizinleri, bir 'spans' özelliğinde döndürülür.

  • Özellik yapısı :

FeaturesDict({
    'article_id': tf.int32,
    'id': tf.string,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'spans': Tensor(shape=(None,), dtype=tf.int32),
    'text': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
makale_kimliği tensör tf.int32
İD tensör tf.string
ebeveyn_kimliği tensör tf.int32
parent_text Metin tf.string
açıklıklar tensör (Hiçbiri,) tf.int32
Metin Metin tf.string
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

Civil_comments/CivilCommentsInContext

  • Yapılandırma açıklaması : Bağlamdaki CivilComments, etiketleyicilere parent_text'i sağlayarak etiketlenen CivilComments'ın bir alt kümesidir. Bir bağlamsal_toksisite özelliği içerir.

  • Özellik yapısı :

FeaturesDict({
    'article_id': tf.int32,
    'contextual_toxicity': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
makale_kimliği tensör tf.int32
bağlamsal_toksisite tensör tf.float32
İD tensör tf.string
kimlik_attack tensör tf.float32
hakaret etmek tensör tf.float32
müstehcen tensör tf.float32
ebeveyn_kimliği tensör tf.int32
parent_text Metin tf.string
şiddetli_toksisite tensör tf.float32
cinsel_açık tensör tf.float32
Metin Metin tf.string
tehdit tensör tf.float32
zehirlilik tensör tf.float32
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}