wikipedia_독성_하위 유형

  • 설명 :

이 데이터 세트의 댓글은 Wikipedia 토크 페이지 댓글 아카이브에서 가져옵니다. 이들은 심각한 독성, 음란물, 위협적인 언어, 모욕적인 언어 및 신원 공격을 포함한 다양한 독성 하위 유형뿐만 아니라 (주요 구성의 경우) 독성에 대해 Jigsaw에 의해 주석이 추가되었습니다. 이 데이터 세트는 Kaggle에서 Jigsaw 독성 댓글 분류 챌린지 및 Jigsaw 다국어 독성 댓글 분류 경쟁을 위해 공개된 데이터의 복제본으로, 경쟁 종료 후 공개된 test_labels와 병합된 테스트 데이터 세트입니다. 채점에 사용되지 않는 테스트 데이터는 삭제되었습니다. 이 데이터 세트는 기본 주석 텍스트와 마찬가지로 CC0에서 릴리스됩니다.

  • 소스 코드 : tfds.text.WikipediaToxicitySubtypes

  • 버전 :

    • 0.2.0 : CivilComments 데이터 세트와의 일관성을 위해 기능이 업데이트되었습니다.
    • 0.3.0 : WikipediaToxicityMultilingual 구성을 추가했습니다.
    • 0.3.1 (기본값): 각 댓글에 고유 ID를 추가했습니다. (다국어 구성의 경우 각 스플릿 내에서만 고유합니다.)
  • 다운로드 크기 : 50.57 MiB

  • 자동 캐시 ( 문서 ): 예

  • 감독 키 ( as_supervised 문서 참조): ('text', 'toxicity')

  • 그림 ( tfds.show_examples ): 지원되지 않습니다.

  • 인용 :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSubtypes(기본 구성)

  • 구성 설명 : WikipediaToxicitySubtypes 구성의 댓글은 Jigsaw에서 독성에 대해 주석을 추가한 영어 Wikipedia 토크 페이지 댓글 아카이브와 5개의 독성 하위 유형 레이블(심각한 독성, 외설적, 위협, 모욕, identity_attack)에서 가져온 것입니다. 독성 및 독성 하위 유형 레이블은 대부분의 주석 작성자가 주석 텍스트에 해당 속성을 할당했는지 여부를 나타내는 이진 값(0 또는 1)입니다. 이 구성은 Kaggle의 Jigsaw Toxic Comment Classification Challenge를 위해 공개된 데이터의 복제본으로, 경쟁 후 공개된 test_labels와 결합된 테스트 데이터 세트와 채점에 사용되지 않은 테스트 데이터는 삭제되었습니다.

자세한 내용은 Kaggle 문서 https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data 또는 https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 을 참조하십시오.

나뉘다
'test' 63,978
'train' 159,571
  • 기능 구조 :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
ID 텍스트
신원 공격 텐서 float32
모욕 텐서 float32
언어 텍스트
역겨운 텐서 float32
심한 독성 텐서 float32
텍스트 텍스트
위협 텐서 float32
독성 텐서 float32

wikipedia_toxicity_subtypes/다국어

  • 구성 설명 : 여기 WikipediaToxicityMultilingual 구성의 댓글은 Jigsaw에서 독성에 대해 주석을 추가한 비영어 Wikipedia 토론 페이지 댓글 아카이브에서 가져왔습니다. 이진 값(0 또는 1)은 대부분의 주석 작성자가 댓글 텍스트를 독성으로 평가했는지 여부를 나타냅니다. 이 구성의 주석은 여러 언어(터키어, 이탈리아어, 스페인어, 포르투갈어, 러시아어 및 프랑스어)로 되어 있습니다. 이 구성은 Kaggle의 Jigsaw Multilingual Toxic Comment Classification에 대해 공개된 데이터의 복제본으로, 경쟁 후 공개된 test_labels와 결합된 테스트 데이터 세트가 있습니다.

자세한 내용은 Kaggle 문서 https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data 를 참조하십시오.

나뉘다
'test' 63,812
'validation' 8,000
  • 기능 구조 :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
ID 텍스트
언어 텍스트
텍스트 텍스트
독성 텐서 float32