- Açıklama :
CivilComments Veri Kümesinin bu sürümü, kalabalık çalışanlar tarafından not eklenen birincil yedi etikete erişim sağlar, toksisite ve diğer etiketler 0 ile 1 arasında bir değerdir ve bu öznitelikleri yorum metnine atayan açıklayıcıların oranını gösterir.
Diğer etiketler, giriş örneklerinin yalnızca bir kısmı için kullanılabilir. Şu anda ana veri kümesi için yok sayılırlar; CivilCommentsIdentities kümesi bu etiketleri içerir, ancak yalnızca bunlarla birlikte verilerin alt kümesinden oluşur. Orijinal CivilComments sürümünün parçası olan diğer nitelikler yalnızca ham verilere dahil edilmiştir. Kullanılabilir özellikler hakkında daha fazla ayrıntı için Kaggle belgelerine bakın.
Bu veri setindeki yorumlar, bağımsız haber siteleri için bir yorum eklentisi olan Sivil Yorumlar platformunun bir arşivinden gelmektedir. Bu genel yorumlar 2015 - 2017 yılları arasında oluşturuldu ve dünya çapında yaklaşık 50 İngilizce haber sitesinde yayınlandı. Sivil Yorumlar 2017'de kapandığında, gelecekteki araştırmalara olanak sağlamak için kamuya açık yorumları kalıcı bir açık arşivde kullanıma sunmayı seçtiler. Figshare'de yayınlanan orijinal veriler, herkese açık yorum metnini, makale kimlikleri, zaman damgaları ve yorumcu tarafından oluşturulan "medeniyet" etiketleri gibi bazı ilişkili meta verileri içerir, ancak kullanıcı kimliklerini içermez. Jigsaw, bu veri setini toksisite, kimlik belirtme ve ayrıca gizli saldırganlık için ek etiketler ekleyerek genişletti. Bu veri seti, Toksisite Sınıflandırma Kaggle yarışmasında Jigsaw İstenmeyen Önyargı için yayınlanan verilerin tam bir kopyasıdır. Bu veri kümesi, temeldeki yorum metni gibi CC0 altında yayınlanır.
Sivil yorum verilerinde de parent_id olan yorumlar için, önceki yorumun metni "parent_text" özelliği olarak sağlanır. Bölmelerin bu bilgiler dikkate alınmadan yapıldığını unutmayın, bu nedenle önceki yorumları kullanmak bazı bilgileri sızdırabilir. Açıklama yapanların, etiketleri oluştururken üst metne erişimi yoktu.
Ana sayfa : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
Kaynak kodu :
tfds.text.CivilComments
Sürümler :
-
1.0.0
: İlk tam sürüm. -
1.0.1
: Her yorum için benzersiz bir kimlik eklendi. -
1.1.0
: CivilCommentsCovert yapılandırması eklendi. -
1.1.1
: Doğru sağlama toplamı ile CivilCommentsCovert yapılandırması eklendi. -
1.1.2
: CivilCommentsCovert veri seti için ayrı alıntı eklendi. -
1.1.3
: Floattan string'e id türleri düzeltildi. -
1.2.0
: Zehirli açıklıklar, bağlam ve ana yorum metni özellikleri ekleyin. -
1.2.1
: Bağlam bölmelerinde yanlış biçimlendirmeyi düzeltin. -
1.2.2
: Yalnızca bir tren bölünmesine sahip bağlamı yansıtacak şekilde güncelleme. -
1.2.3
(varsayılan) : Bir veri sorununu düzeltirken CivilCommentsCovert'a uyarı ekleyin.
-
İndirme boyutu :
Unknown size
Veri kümesi boyutu :
Unknown size
Otomatik önbelleğe alındı ( belgeler ): Bilinmiyor
Bölmeler :
Bölmek | Örnekler |
---|
Şekil ( tfds.show_examples ): Desteklenmez.
Örnekler ( tfds.as_dataframe ): Eksik.
Civil_comments/CivilComments (varsayılan yapılandırma)
Yapılandırma açıklaması : Burada ayarlanan CivilComments tüm verileri içerir, ancak yalnızca temel yedi etiketi içerir (toksisite, şiddetli_toksisite, müstehcen, tehdit, hakaret, kimlik_saldırı ve cinsel_açık).
Özellik yapısı :
FeaturesDict({
'article_id': tf.int32,
'id': tf.string,
'identity_attack': tf.float32,
'insult': tf.float32,
'obscene': tf.float32,
'parent_id': tf.int32,
'parent_text': Text(shape=(), dtype=tf.string),
'severe_toxicity': tf.float32,
'sexual_explicit': tf.float32,
'text': Text(shape=(), dtype=tf.string),
'threat': tf.float32,
'toxicity': tf.float32,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
makale_kimliği | tensör | tf.int32 | ||
İD | tensör | tf.string | ||
kimlik_attack | tensör | tf.float32 | ||
hakaret etmek | tensör | tf.float32 | ||
müstehcen | tensör | tf.float32 | ||
ebeveyn_kimliği | tensör | tf.int32 | ||
parent_text | Metin | tf.string | ||
şiddetli_toksisite | tensör | tf.float32 | ||
cinsel_açık | tensör | tf.float32 | ||
Metin | Metin | tf.string | ||
tehdit | tensör | tf.float32 | ||
zehirlilik | tensör | tf.float32 |
Denetimli anahtarlar (bkz
as_supervised
doc ):('text', 'toxicity')
alıntı :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
Civil_comments/CivilCommentsKimlikler
Yapılandırma açıklaması : Burada ayarlanan CivilCommentsIdentities, temel yedi etikete ek olarak genişletilmiş bir kimlik etiketleri kümesi içerir. Ancak, tüm bu özelliklere sahip verilerin yalnızca alt kümesini (kabaca dörtte birini) içerir.
Özellik yapısı :
FeaturesDict({
'article_id': tf.int32,
'asian': tf.float32,
'atheist': tf.float32,
'bisexual': tf.float32,
'black': tf.float32,
'buddhist': tf.float32,
'christian': tf.float32,
'female': tf.float32,
'heterosexual': tf.float32,
'hindu': tf.float32,
'homosexual_gay_or_lesbian': tf.float32,
'id': tf.string,
'identity_attack': tf.float32,
'insult': tf.float32,
'intellectual_or_learning_disability': tf.float32,
'jewish': tf.float32,
'latino': tf.float32,
'male': tf.float32,
'muslim': tf.float32,
'obscene': tf.float32,
'other_disability': tf.float32,
'other_gender': tf.float32,
'other_race_or_ethnicity': tf.float32,
'other_religion': tf.float32,
'other_sexual_orientation': tf.float32,
'parent_id': tf.int32,
'parent_text': Text(shape=(), dtype=tf.string),
'physical_disability': tf.float32,
'psychiatric_or_mental_illness': tf.float32,
'severe_toxicity': tf.float32,
'sexual_explicit': tf.float32,
'text': Text(shape=(), dtype=tf.string),
'threat': tf.float32,
'toxicity': tf.float32,
'transgender': tf.float32,
'white': tf.float32,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
makale_kimliği | tensör | tf.int32 | ||
Asya | tensör | tf.float32 | ||
ateist | tensör | tf.float32 | ||
biseksüel | tensör | tf.float32 | ||
siyah | tensör | tf.float32 | ||
Budist | tensör | tf.float32 | ||
hıristiyan | tensör | tf.float32 | ||
dişi | tensör | tf.float32 | ||
heteroseksüel | tensör | tf.float32 | ||
Hindu | tensör | tf.float32 | ||
homoseksüel_gay_or_lesbian | tensör | tf.float32 | ||
İD | tensör | tf.string | ||
kimlik_attack | tensör | tf.float32 | ||
hakaret etmek | tensör | tf.float32 | ||
entelektüel_or_learning_disability | tensör | tf.float32 | ||
Yahudi | tensör | tf.float32 | ||
latin | tensör | tf.float32 | ||
erkek | tensör | tf.float32 | ||
Müslüman | tensör | tf.float32 | ||
müstehcen | tensör | tf.float32 | ||
other_disability | tensör | tf.float32 | ||
other_gender | tensör | tf.float32 | ||
other_race_or_etnisite | tensör | tf.float32 | ||
other_religion | tensör | tf.float32 | ||
other_seksüel_oryantasyon | tensör | tf.float32 | ||
ebeveyn_kimliği | tensör | tf.int32 | ||
parent_text | Metin | tf.string | ||
fiziksel engel | tensör | tf.float32 | ||
psikiyatrik_veya_mental_hastalık | tensör | tf.float32 | ||
şiddetli_toksisite | tensör | tf.float32 | ||
cinsel_açık | tensör | tf.float32 | ||
Metin | Metin | tf.string | ||
tehdit | tensör | tf.float32 | ||
zehirlilik | tensör | tf.float32 | ||
transseksüel | tensör | tf.float32 | ||
beyaz | tensör | tf.float32 |
Denetimli anahtarlar (bkz
as_supervised
doc ):('text', 'toxicity')
alıntı :
@article{DBLP:journals/corr/abs-1903-04561,
author = {Daniel Borkan and
Lucas Dixon and
Jeffrey Sorensen and
Nithum Thain and
Lucy Vasserman},
title = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
Classification},
journal = {CoRR},
volume = {abs/1903.04561},
year = {2019},
url = {http://arxiv.org/abs/1903.04561},
archivePrefix = {arXiv},
eprint = {1903.04561},
timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
Civil_comments/CivilCommentsGizli
- Yapılandırma açıklaması : UYARI: CivilCommentsCovert ile ilgili aktif olarak düzeltmeye çalıştığımız olası bir veri kalitesi sorunu var (28/06/22); temel veriler değişebilir!
CivilCommentsCovert seti, toksisite ve kimlik etiketlerine ek olarak, trenin ~%20'si ve test bölümlerinin daha fazla gizli saldırganlık için açıklamalı olduğu CivilCommentsIdentities'in bir alt kümesidir. Değerlendiricilerden yorumları açıkça, dolaylı olarak, değil veya rahatsız edici olup olmadığından emin değilim ve bunun yanı sıra farklı türde gizli saldırganlık içerip içermediği şeklinde sınıflandırmaları istendi. Tam açıklama prosedürü, https://sites.google.com/corp/view/hciandnlp/accepted-papers adresinde yakında çıkacak bir makalede ayrıntılı olarak açıklanmıştır.
- Özellik yapısı :
FeaturesDict({
'article_id': tf.int32,
'asian': tf.float32,
'atheist': tf.float32,
'bisexual': tf.float32,
'black': tf.float32,
'buddhist': tf.float32,
'christian': tf.float32,
'covert_emoticons_emojis': tf.float32,
'covert_humor': tf.float32,
'covert_masked_harm': tf.float32,
'covert_microaggression': tf.float32,
'covert_obfuscation': tf.float32,
'covert_political': tf.float32,
'covert_sarcasm': tf.float32,
'explicitly_offensive': tf.float32,
'female': tf.float32,
'heterosexual': tf.float32,
'hindu': tf.float32,
'homosexual_gay_or_lesbian': tf.float32,
'id': tf.string,
'identity_attack': tf.float32,
'implicitly_offensive': tf.float32,
'insult': tf.float32,
'intellectual_or_learning_disability': tf.float32,
'jewish': tf.float32,
'latino': tf.float32,
'male': tf.float32,
'muslim': tf.float32,
'not_offensive': tf.float32,
'not_sure_offensive': tf.float32,
'obscene': tf.float32,
'other_disability': tf.float32,
'other_gender': tf.float32,
'other_race_or_ethnicity': tf.float32,
'other_religion': tf.float32,
'other_sexual_orientation': tf.float32,
'parent_id': tf.int32,
'parent_text': Text(shape=(), dtype=tf.string),
'physical_disability': tf.float32,
'psychiatric_or_mental_illness': tf.float32,
'severe_toxicity': tf.float32,
'sexual_explicit': tf.float32,
'text': Text(shape=(), dtype=tf.string),
'threat': tf.float32,
'toxicity': tf.float32,
'transgender': tf.float32,
'white': tf.float32,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
makale_kimliği | tensör | tf.int32 | ||
Asya | tensör | tf.float32 | ||
ateist | tensör | tf.float32 | ||
biseksüel | tensör | tf.float32 | ||
siyah | tensör | tf.float32 | ||
Budist | tensör | tf.float32 | ||
hıristiyan | tensör | tf.float32 | ||
covert_emoticons_emojis | tensör | tf.float32 | ||
gizli_humor | tensör | tf.float32 | ||
covert_masked_harm | tensör | tf.float32 | ||
gizli_mikrosaldırganlık | tensör | tf.float32 | ||
covert_obfuscation | tensör | tf.float32 | ||
gizli_politik | tensör | tf.float32 | ||
covert_sarcasm | tensör | tf.float32 | ||
açıkça_saldırgan | tensör | tf.float32 | ||
dişi | tensör | tf.float32 | ||
heteroseksüel | tensör | tf.float32 | ||
Hindu | tensör | tf.float32 | ||
homoseksüel_gay_or_lesbian | tensör | tf.float32 | ||
İD | tensör | tf.string | ||
kimlik_attack | tensör | tf.float32 | ||
örtük_saldırgan | tensör | tf.float32 | ||
hakaret etmek | tensör | tf.float32 | ||
entelektüel_or_learning_disability | tensör | tf.float32 | ||
Yahudi | tensör | tf.float32 | ||
latin | tensör | tf.float32 | ||
erkek | tensör | tf.float32 | ||
Müslüman | tensör | tf.float32 | ||
saldırgan değil | tensör | tf.float32 | ||
not_sure_offensive | tensör | tf.float32 | ||
müstehcen | tensör | tf.float32 | ||
other_disability | tensör | tf.float32 | ||
other_gender | tensör | tf.float32 | ||
other_race_or_etnisite | tensör | tf.float32 | ||
other_religion | tensör | tf.float32 | ||
other_seksüel_oryantasyon | tensör | tf.float32 | ||
ebeveyn_kimliği | tensör | tf.int32 | ||
parent_text | Metin | tf.string | ||
fiziksel engel | tensör | tf.float32 | ||
psikiyatrik_veya_mental_hastalık | tensör | tf.float32 | ||
şiddetli_toksisite | tensör | tf.float32 | ||
cinsel_açık | tensör | tf.float32 | ||
Metin | Metin | tf.string | ||
tehdit | tensör | tf.float32 | ||
zehirlilik | tensör | tf.float32 | ||
transseksüel | tensör | tf.float32 | ||
beyaz | tensör | tf.float32 |
Denetimli anahtarlar (bkz
as_supervised
doc ):('text', 'toxicity')
alıntı :
@inproceedings{lees-etal-2021-capturing,
title = "Capturing Covertly Toxic Speech via Crowdsourcing",
author = "Lees, Alyssa and
Borkan, Daniel and
Kivlichan, Ian and
Nario, Jorge and
Goyal, Tesh",
booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
pages = "14--20"
}
Civil_comments/CivilCommentsToxicSpans
Yapılandırma açıklaması : CivilComments Toxic Spans, CivilComments'ın yayılma düzeyinde etiketlenmiş bir alt kümesidir - ek açıklama yapanların çoğu tarafından toksik olarak etiketlenen tüm karakter (unicode kod noktaları) sınırlarının dizinleri, bir 'spans' özelliğinde döndürülür.
Özellik yapısı :
FeaturesDict({
'article_id': tf.int32,
'id': tf.string,
'parent_id': tf.int32,
'parent_text': Text(shape=(), dtype=tf.string),
'spans': Tensor(shape=(None,), dtype=tf.int32),
'text': Text(shape=(), dtype=tf.string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
makale_kimliği | tensör | tf.int32 | ||
İD | tensör | tf.string | ||
ebeveyn_kimliği | tensör | tf.int32 | ||
parent_text | Metin | tf.string | ||
açıklıklar | tensör | (Hiçbiri,) | tf.int32 | |
Metin | Metin | tf.string |
Denetlenen anahtarlar (bkz
as_supervised
doc ):('text', 'spans')
alıntı :
@inproceedings{pavlopoulos-etal-2021-semeval,
title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
author = "Pavlopoulos, John and Sorensen, Jeffrey and Laugier, L{'e}o and Androutsopoulos, Ion",
booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.semeval-1.6",
doi = "10.18653/v1/2021.semeval-1.6",
pages = "59--69",
}
Civil_comments/CivilCommentsInContext
Yapılandırma açıklaması : Bağlamdaki CivilComments, etiketleyicilere parent_text'i sağlayarak etiketlenen CivilComments'ın bir alt kümesidir. Bir bağlamsal_toksisite özelliği içerir.
Özellik yapısı :
FeaturesDict({
'article_id': tf.int32,
'contextual_toxicity': tf.float32,
'id': tf.string,
'identity_attack': tf.float32,
'insult': tf.float32,
'obscene': tf.float32,
'parent_id': tf.int32,
'parent_text': Text(shape=(), dtype=tf.string),
'severe_toxicity': tf.float32,
'sexual_explicit': tf.float32,
'text': Text(shape=(), dtype=tf.string),
'threat': tf.float32,
'toxicity': tf.float32,
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
makale_kimliği | tensör | tf.int32 | ||
bağlamsal_toksisite | tensör | tf.float32 | ||
İD | tensör | tf.string | ||
kimlik_attack | tensör | tf.float32 | ||
hakaret etmek | tensör | tf.float32 | ||
müstehcen | tensör | tf.float32 | ||
ebeveyn_kimliği | tensör | tf.int32 | ||
parent_text | Metin | tf.string | ||
şiddetli_toksisite | tensör | tf.float32 | ||
cinsel_açık | tensör | tf.float32 | ||
Metin | Metin | tf.string | ||
tehdit | tensör | tf.float32 | ||
zehirlilik | tensör | tf.float32 |
Denetimli anahtarlar (bkz
as_supervised
doc ):('text', 'toxicity')
alıntı :
@misc{pavlopoulos2020toxicity,
title={Toxicity Detection: Does Context Really Matter?},
author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}