- 설명 :
이 데이터 세트의 댓글은 Wikipedia 토크 페이지 댓글 아카이브에서 가져옵니다. 이들은 심각한 독성, 음란물, 위협적인 언어, 모욕적인 언어 및 신원 공격을 포함한 다양한 독성 하위 유형뿐만 아니라 (주요 구성의 경우) 독성에 대해 Jigsaw에 의해 주석이 추가되었습니다. 이 데이터 세트는 Kaggle에서 Jigsaw 독성 댓글 분류 챌린지 및 Jigsaw 다국어 독성 댓글 분류 경쟁을 위해 공개된 데이터의 복제본으로, 경쟁 종료 후 공개된 test_labels와 병합된 테스트 데이터 세트입니다. 채점에 사용되지 않는 테스트 데이터는 삭제되었습니다. 이 데이터 세트는 기본 주석 텍스트와 마찬가지로 CC0에서 릴리스됩니다.
버전 :
-
0.2.0
: CivilComments 데이터 세트와의 일관성을 위해 기능이 업데이트되었습니다. -
0.3.0
: WikipediaToxicityMultilingual 구성을 추가했습니다. -
0.3.1
(기본값): 각 댓글에 고유 ID를 추가했습니다. (다국어 구성의 경우 각 스플릿 내에서만 고유합니다.)
-
다운로드 크기 :
50.57 MiB
자동 캐시 ( 문서 ): 예
감독 키 (
as_supervised
문서 참조):('text', 'toxicity')
그림 ( tfds.show_examples ): 지원되지 않습니다.
인용 :
@inproceedings{10.1145/3038912.3052591,
author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
title = {Ex Machina: Personal Attacks Seen at Scale},
year = {2017},
isbn = {9781450349130},
publisher = {International World Wide Web Conferences Steering Committee},
address = {Republic and Canton of Geneva, CHE},
url = {https://doi.org/10.1145/3038912.3052591},
doi = {10.1145/3038912.3052591},
booktitle = {Proceedings of the 26th International Conference on World Wide Web},
pages = {1391-1399},
numpages = {9},
keywords = {online discussions, wikipedia, online harassment},
location = {Perth, Australia},
series = {WWW '17}
}
wikipedia_toxicity_subtypes/EnglishSubtypes(기본 구성)
- 구성 설명 : WikipediaToxicitySubtypes 구성의 댓글은 Jigsaw에서 독성에 대해 주석을 추가한 영어 Wikipedia 토크 페이지 댓글 아카이브와 5개의 독성 하위 유형 레이블(심각한 독성, 외설적, 위협, 모욕, identity_attack)에서 가져온 것입니다. 독성 및 독성 하위 유형 레이블은 대부분의 주석 작성자가 주석 텍스트에 해당 속성을 할당했는지 여부를 나타내는 이진 값(0 또는 1)입니다. 이 구성은 Kaggle의 Jigsaw Toxic Comment Classification Challenge를 위해 공개된 데이터의 복제본으로, 경쟁 후 공개된 test_labels와 결합된 테스트 데이터 세트와 채점에 사용되지 않은 테스트 데이터는 삭제되었습니다.
자세한 내용은 Kaggle 문서 https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data 또는 https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 을 참조하십시오.
홈페이지 : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
데이터 세트 크기 :
128.32 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 63,978 |
'train' | 159,571 |
- 기능 구조 :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'identity_attack': float32,
'insult': float32,
'language': Text(shape=(), dtype=string),
'obscene': float32,
'severe_toxicity': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
ID | 텍스트 | 끈 | ||
신원 공격 | 텐서 | float32 | ||
모욕 | 텐서 | float32 | ||
언어 | 텍스트 | 끈 | ||
역겨운 | 텐서 | float32 | ||
심한 독성 | 텐서 | float32 | ||
텍스트 | 텍스트 | 끈 | ||
위협 | 텐서 | float32 | ||
독성 | 텐서 | float32 |
- 예 ( tfds.as_dataframe ):
wikipedia_toxicity_subtypes/다국어
- 구성 설명 : 여기 WikipediaToxicityMultilingual 구성의 댓글은 Jigsaw에서 독성에 대해 주석을 추가한 비영어 Wikipedia 토론 페이지 댓글 아카이브에서 가져왔습니다. 이진 값(0 또는 1)은 대부분의 주석 작성자가 댓글 텍스트를 독성으로 평가했는지 여부를 나타냅니다. 이 구성의 주석은 여러 언어(터키어, 이탈리아어, 스페인어, 포르투갈어, 러시아어 및 프랑스어)로 되어 있습니다. 이 구성은 Kaggle의 Jigsaw Multilingual Toxic Comment Classification에 대해 공개된 데이터의 복제본으로, 경쟁 후 공개된 test_labels와 결합된 테스트 데이터 세트가 있습니다.
자세한 내용은 Kaggle 문서 https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data 를 참조하십시오.
홈페이지 : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
데이터 세트 크기 :
35.13 MiB
분할 :
나뉘다 | 예 |
---|---|
'test' | 63,812 |
'validation' | 8,000 |
- 기능 구조 :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'language': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'toxicity': float32,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
ID | 텍스트 | 끈 | ||
언어 | 텍스트 | 끈 | ||
텍스트 | 텍스트 | 끈 | ||
독성 | 텐서 | float32 |
- 예 ( tfds.as_dataframe ):