Civil_comments

  • Mô tả :

Phiên bản này của Bộ dữ liệu CivilComments cung cấp quyền truy cập vào bảy nhãn chính được chú thích bởi nhân viên đám đông, độc tính và các thẻ khác có giá trị từ 0 đến 1 cho biết tỷ lệ người chú thích đã gán các thuộc tính này cho văn bản nhận xét.

Các thẻ khác chỉ có sẵn cho một phần nhỏ các ví dụ đầu vào. Chúng hiện đang bị bỏ qua đối với tập dữ liệu chính; tập hợp CivilCommentsIdentities bao gồm các nhãn đó, nhưng chỉ bao gồm tập hợp con của dữ liệu với chúng. Các thuộc tính khác là một phần của bản phát hành CivilComments ban đầu chỉ được bao gồm trong dữ liệu thô. Xem tài liệu Kaggle để biết thêm chi tiết về các tính năng có sẵn.

Các bình luận trong bộ dữ liệu này đến từ một kho lưu trữ của nền tảng Bình luận dân sự, một plugin bình luận cho các trang web tin tức độc lập. Những bình luận công khai này được tạo ra từ năm 2015 - 2017 và xuất hiện trên khoảng 50 trang tin tức tiếng Anh trên toàn thế giới. Khi Civil Comments ngừng hoạt động vào năm 2017, họ đã chọn cung cấp các bình luận công khai trong một kho lưu trữ mở lâu dài để cho phép nghiên cứu trong tương lai. Dữ liệu gốc, được xuất bản trên figshare, bao gồm văn bản nhận xét công khai, một số siêu dữ liệu được liên kết như ID bài viết, ID xuất bản, dấu thời gian và nhãn "văn minh" do người bình luận tạo, nhưng không bao gồm id người dùng. Jigsaw đã mở rộng tập dữ liệu này bằng cách thêm các nhãn bổ sung cho độc tính, đề cập đến danh tính cũng như hành vi xúc phạm bí mật. Tập dữ liệu này là một bản sao chính xác của dữ liệu được phát hành cho thử thách Kaggle Xu hướng ngoài ý muốn trong Jigsaw trong Phân loại độc tính. Bộ dữ liệu này được phát hành theo CC0, cũng như văn bản nhận xét cơ bản.

Đối với các nhận xét cũng có parent_id trong dữ liệu nhận xét dân sự, văn bản của nhận xét trước đó được cung cấp dưới dạng tính năng "parent_text". Lưu ý rằng việc phân tách được thực hiện mà không tính đến thông tin này, vì vậy việc sử dụng các nhận xét trước đây có thể làm rò rỉ một số thông tin. Người chú thích không có quyền truy cập vào văn bản gốc khi tạo nhãn.

  • Trang chủ : https://www.kaggle.com/c/jigsaw-unintends-bias-in-toxicity-classification/data

  • Mã nguồn : tfds.text.CivilComments

  • Phiên bản :

    • 1.0.0 : Bản phát hành đầy đủ ban đầu.
    • 1.0.1 : Đã thêm id duy nhất cho mỗi nhận xét.
    • 1.1.0 : Đã thêm cấu hình CivilCommentsCovert.
    • 1.1.1 : Đã thêm cấu hình CivilCommentsCovert với tổng kiểm tra chính xác.
    • 1.1.2 : Đã thêm trích dẫn riêng cho bộ dữ liệu CivilCommentsCovert.
    • 1.1.3 : Đã sửa các loại id từ float thành string.
    • 1.2.0 : Thêm các tính năng văn bản nhận xét độc hại, ngữ cảnh và phụ huynh.
    • 1.2.1 : Sửa định dạng không chính xác trong phân tách ngữ cảnh.
    • 1.2.2 : Cập nhật để phản ánh bối cảnh chỉ có sự phân tách tàu.
    • 1.2.3 : Thêm cảnh báo vào CivilCommentsCovert khi chúng tôi khắc phục sự cố dữ liệu.
    • 1.2.4 (mặc định): Thêm ID xuất bản và dấu thời gian nhận xét.
  • Kích thước tải xuống : 427.41 MiB

  • Hình ( tfds.show_examples ): Không được hỗ trợ.

civil_comments/CivilComments (cấu hình mặc định)

  • Mô tả cấu hình : Bộ CivilComments ở đây bao gồm tất cả dữ liệu, nhưng chỉ có bảy nhãn cơ bản (độc tính, độc tính nghiêm trọng, tục tĩu, đe dọa, xúc phạm, tấn công danh tính và khiêu dâm).

  • Kích thước tập dữ liệu : 1.54 GiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'test' 97.320
'train' 1.804.874
'validation' 97.320
  • Cấu trúc tính năng :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
ID bài viết tenxơ int32
ngày tạo ra tenxơ sợi dây
nhận dạng tenxơ sợi dây
danh tính_tấn công tenxơ phao32
sự sỉ nhục tenxơ phao32
tục tĩu tenxơ phao32
ID cha mẹ tenxơ int32
parent_text Chữ sợi dây
ấn phẩm_id tenxơ sợi dây
nghiêm trọng_độc tính tenxơ phao32
sex_explicit tenxơ phao32
chữ Chữ sợi dây
mối đe dọa tenxơ phao32
độc tính tenxơ phao32
  • trích dẫn :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsIdentities

  • Mô tả cấu hình : Bộ CivilCommentsIdentities ở đây bao gồm một bộ nhãn nhận dạng mở rộng ngoài bảy nhãn cơ bản. Tuy nhiên, nó chỉ bao gồm tập hợp con (khoảng một phần tư) dữ liệu có tất cả các tính năng này.

  • Kích thước tập dữ liệu : 654.97 MiB

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'test' 21,577
'train' 405.130
'validation' 21,293
  • Cấu trúc tính năng :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
ID bài viết tenxơ int32
Châu Á tenxơ phao32
người vô thần tenxơ phao32
lưỡng tính tenxơ phao32
đen tenxơ phao32
phật tử tenxơ phao32
thiên chúa giáo tenxơ phao32
ngày tạo ra tenxơ sợi dây
nữ giới tenxơ phao32
khác giới tenxơ phao32
ấn độ giáo tenxơ phao32
đồng tính luyến ái_gay_or_lesbian tenxơ phao32
nhận dạng tenxơ sợi dây
danh tính_tấn công tenxơ phao32
sự sỉ nhục tenxơ phao32
trí tuệ_or_learning_disability tenxơ phao32
người do thái tenxơ phao32
người la tinh tenxơ phao32
nam giới tenxơ phao32
Hồi tenxơ phao32
tục tĩu tenxơ phao32
other_disability tenxơ phao32
other_gender tenxơ phao32
other_race_or_ethnicity tenxơ phao32
tôn_giáo khác tenxơ phao32
other_sex_orientation tenxơ phao32
ID cha mẹ tenxơ int32
parent_text Chữ sợi dây
khuyết tật về thể chất tenxơ phao32
tâm thần_or_mental_illness tenxơ phao32
ấn phẩm_id tenxơ sợi dây
nghiêm trọng_độc tính tenxơ phao32
sex_explicit tenxơ phao32
chữ Chữ sợi dây
mối đe dọa tenxơ phao32
độc tính tenxơ phao32
chuyển giới tenxơ phao32
trắng tenxơ phao32
  • trích dẫn :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsCovert

  • Mô tả cấu hình : CẢNH BÁO: có thể có vấn đề về chất lượng dữ liệu với CivilCommentsCovert mà chúng tôi đang tích cực tìm cách khắc phục (28/06/22); dữ liệu cơ bản có thể thay đổi!

Bộ CivilCommentsCovert là một tập hợp con của CivilCommentsIdentities với ~20% phần tách thử nghiệm và đào tạo được chú thích thêm về hành vi tấn công bí mật, bên cạnh các nhãn nhận dạng và độc tính. Những người đánh giá được yêu cầu phân loại các nhận xét là một trong những nhận xét rõ ràng, ngầm hiểu, không hoặc không chắc liệu có xúc phạm hay không, cũng như liệu nó có chứa các loại xúc phạm bí mật khác nhau hay không. Quy trình chú thích đầy đủ được trình bày chi tiết trong một bài báo sắp xuất bản tại https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • Kích thước tập dữ liệu : 97.83 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 2.455
'train' 48,074
  • Cấu trúc tính năng :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
ID bài viết tenxơ int32
Châu Á tenxơ phao32
người vô thần tenxơ phao32
lưỡng tính tenxơ phao32
đen tenxơ phao32
phật tử tenxơ phao32
thiên chúa giáo tenxơ phao32
covert_emoticons_emojis tenxơ phao32
covert_humor tenxơ phao32
covert_masked_harm tenxơ phao32
covert_microaggression tenxơ phao32
covert_obfuscation tenxơ phao32
bí mật_chính trị tenxơ phao32
covert_sarcasm tenxơ phao32
ngày tạo ra tenxơ sợi dây
rõ ràng_offensive tenxơ phao32
nữ giới tenxơ phao32
khác giới tenxơ phao32
ấn độ giáo tenxơ phao32
đồng tính luyến ái_gay_or_lesbian tenxơ phao32
nhận dạng tenxơ sợi dây
danh tính_tấn công tenxơ phao32
ngầm_tấn công tenxơ phao32
sự sỉ nhục tenxơ phao32
trí tuệ_or_learning_disability tenxơ phao32
người do thái tenxơ phao32
người la tinh tenxơ phao32
nam giới tenxơ phao32
Hồi tenxơ phao32
not_offensive tenxơ phao32
not_sure_offensive tenxơ phao32
tục tĩu tenxơ phao32
other_disability tenxơ phao32
other_gender tenxơ phao32
other_race_or_ethnicity tenxơ phao32
tôn_giáo khác tenxơ phao32
other_sex_orientation tenxơ phao32
ID cha mẹ tenxơ int32
parent_text Chữ sợi dây
khuyết tật về thể chất tenxơ phao32
tâm thần_or_mental_illness tenxơ phao32
ấn phẩm_id tenxơ sợi dây
nghiêm trọng_độc tính tenxơ phao32
sex_explicit tenxơ phao32
chữ Chữ sợi dây
mối đe dọa tenxơ phao32
độc tính tenxơ phao32
chuyển giới tenxơ phao32
trắng tenxơ phao32
  • trích dẫn :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

civil_comments/CivilCommentsToxicSpans

  • Mô tả cấu hình : CivilComments Toxic Spans là một tập hợp con của CivilComments được gắn nhãn ở cấp độ span - chỉ số của tất cả các ranh giới ký tự (điểm mã unicode) được đa số người chú thích gắn thẻ là độc hại được trả về trong tính năng 'spans'.

  • Kích thước tập dữ liệu : 5.81 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'test' 2.000
'train' 7,939
'validation' 682
  • Cấu trúc tính năng :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
ID bài viết tenxơ int32
ngày tạo ra tenxơ sợi dây
nhận dạng tenxơ sợi dây
ID cha mẹ tenxơ int32
parent_text Chữ sợi dây
ấn phẩm_id tenxơ sợi dây
nhịp tenxơ (Không có,) int32
chữ Chữ sợi dây
  • trích dẫn :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

civil_comments/CivilCommentsInContext

  • Mô tả cấu hình : CivilComments trong Ngữ cảnh là một tập hợp con của CivilComments đã được gắn nhãn bằng cách cung cấp cho người gắn nhãn văn bản gốc. Nó bao gồm một tính năng contextual_toxicity.

  • Kích thước tập dữ liệu : 9.63 MiB

  • Tự động lưu vào bộ đệm ( tài liệu ): Có

  • Chia tách :

Tách ra ví dụ
'train' 9,969
  • Cấu trúc tính năng :
FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
ID bài viết tenxơ int32
contextual_toxicity tenxơ phao32
ngày tạo ra tenxơ sợi dây
nhận dạng tenxơ sợi dây
danh tính_tấn công tenxơ phao32
sự sỉ nhục tenxơ phao32
tục tĩu tenxơ phao32
ID cha mẹ tenxơ int32
parent_text Chữ sợi dây
ấn phẩm_id tenxơ sợi dây
nghiêm trọng_độc tính tenxơ phao32
sex_explicit tenxơ phao32
chữ Chữ sợi dây
mối đe dọa tenxơ phao32
độc tính tenxơ phao32
  • trích dẫn :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}