- Mô tả :
Các bình luận trong tập dữ liệu này đến từ kho lưu trữ các bình luận trang thảo luận Wikipedia. Những thứ này đã được Jigsaw chú thích về độc tính, cũng như (đối với cấu hình chính) nhiều loại phụ độc tính, bao gồm độc tính nghiêm trọng, tục tĩu, ngôn ngữ đe dọa, ngôn ngữ xúc phạm và tấn công danh tính. Tập dữ liệu này là bản sao của dữ liệu được phát hành cho Thử thách phân loại nhận xét độc hại ghép hình và cuộc thi Phân loại nhận xét độc hại đa ngôn ngữ ghép hình trên Kaggle, với tập dữ liệu thử nghiệm được hợp nhất với test_labels được phát hành sau khi kết thúc cuộc thi. Dữ liệu kiểm tra không được sử dụng để chấm điểm đã bị loại bỏ. Bộ dữ liệu này được phát hành theo CC0, cũng như văn bản nhận xét cơ bản.
Mã nguồn :
tfds.text.WikipediaToxicitySubtypes
Phiên bản :
-
0.2.0
: Các tính năng được cập nhật để thống nhất với bộ dữ liệu CivilComments. -
0.3.0
: Đã thêm WikipediaToxicityCấu hình đa ngôn ngữ. -
0.3.1
(mặc định): Đã thêm id duy nhất cho mỗi nhận xét. (Đối với cấu hình Đa ngôn ngữ, chúng chỉ là duy nhất trong mỗi phần tách.)
-
Kích thước tải xuống :
50.57 MiB
Tự động lưu vào bộ đệm ( tài liệu ): Có
Các khóa được giám sát (Xem
as_supervised
doc ):('text', 'toxicity')
Hình ( tfds.show_examples ): Không được hỗ trợ.
trích dẫn :
@inproceedings{10.1145/3038912.3052591,
author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
title = {Ex Machina: Personal Attacks Seen at Scale},
year = {2017},
isbn = {9781450349130},
publisher = {International World Wide Web Conferences Steering Committee},
address = {Republic and Canton of Geneva, CHE},
url = {https://doi.org/10.1145/3038912.3052591},
doi = {10.1145/3038912.3052591},
booktitle = {Proceedings of the 26th International Conference on World Wide Web},
pages = {1391-1399},
numpages = {9},
keywords = {online discussions, wikipedia, online harassment},
location = {Perth, Australia},
series = {WWW '17}
}
wikipedia_toxicity_subtypes/EnglishSubtypes (cấu hình mặc định)
- Mô tả cấu hình : Các nhận xét trong cấu hình WikipediaToxicitySubtypes là từ kho lưu trữ các nhận xét trên trang thảo luận Wikipedia tiếng Anh đã được Jigsaw chú thích về tính độc hại, cũng như năm nhãn loại phụ về tính độc hại (độc tính nghiêm trọng, tục tĩu, đe dọa, xúc phạm, Identity_attack). Các nhãn phụ về độc tính và độc tính là các giá trị nhị phân (0 hoặc 1) cho biết liệu phần lớn người chú thích có gán thuộc tính đó cho văn bản nhận xét hay không. Cấu hình này là bản sao của dữ liệu được phát hành cho Thử thách phân loại nhận xét độc hại Jigsaw trên Kaggle, với tập dữ liệu thử nghiệm được kết hợp với test_labels được phát hành sau cuộc thi và dữ liệu thử nghiệm không được sử dụng để chấm điểm bị loại bỏ.
Xem tài liệu Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data hoặc https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 để biết thêm chi tiết.
Trang chủ : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
Kích thước tập dữ liệu :
128.32 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 63,978 |
'train' | 159,571 |
- Cấu trúc tính năng :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'identity_attack': float32,
'insult': float32,
'language': Text(shape=(), dtype=string),
'obscene': float32,
'severe_toxicity': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
Tôi | Chữ | sợi dây | ||
danh tính_tấn công | tenxơ | phao32 | ||
sự sỉ nhục | tenxơ | phao32 | ||
ngôn ngữ | Chữ | sợi dây | ||
tục tĩu | tenxơ | phao32 | ||
nghiêm trọng_độc tính | tenxơ | phao32 | ||
chữ | Chữ | sợi dây | ||
mối đe dọa | tenxơ | phao32 | ||
độc tính | tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):
wikipedia_toxicity_subtypes/Đa ngôn ngữ
- Mô tả cấu hình : Các bình luận trong WikipediaToxicityCấu hình đa ngôn ngữ ở đây là từ kho lưu trữ các bình luận trên trang thảo luận Wikipedia không phải tiếng Anh được Jigsaw chú thích về tính độc hại, với giá trị nhị phân (0 hoặc 1) cho biết phần lớn người chú thích có đánh giá văn bản bình luận là độc hại hay không. Nhận xét trong cấu hình này bằng nhiều ngôn ngữ khác nhau (tiếng Thổ Nhĩ Kỳ, tiếng Ý, tiếng Tây Ban Nha, tiếng Bồ Đào Nha, tiếng Nga và tiếng Pháp). Cấu hình này là bản sao của dữ liệu được phát hành cho Phân loại nhận xét độc hại đa ngôn ngữ Jigsaw trên Kaggle, với tập dữ liệu thử nghiệm được kết hợp với test_labels được phát hành sau cuộc thi.
Xem tài liệu Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data để biết thêm chi tiết.
Trang chủ : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
Kích thước tập dữ liệu :
35.13 MiB
Chia tách :
Tách ra | ví dụ |
---|---|
'test' | 63,812 |
'validation' | 8.000 |
- Cấu trúc tính năng :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'language': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'toxicity': float32,
})
- Tài liệu tính năng :
Tính năng | Lớp | Hình dạng | Dtype | Sự mô tả |
---|---|---|---|---|
Tính năngDict | ||||
Tôi | Chữ | sợi dây | ||
ngôn ngữ | Chữ | sợi dây | ||
chữ | Chữ | sợi dây | ||
độc tính | tenxơ | phao32 |
- Ví dụ ( tfds.as_dataframe ):