Civil_comments

  • 설명 :

이 버전의 CivilComments 데이터 세트는 크라우드 작업자가 주석을 추가한 기본 7개 레이블에 대한 액세스를 제공합니다. 독성 및 기타 태그는 주석 텍스트에 이러한 속성을 할당한 주석 작성자의 비율을 나타내는 0과 1 사이의 값입니다.

다른 태그는 입력 예제의 일부에만 사용할 수 있습니다. 현재 기본 데이터 세트에서는 무시됩니다. CivilCommentsIdentities 세트에는 이러한 레이블이 포함되지만 해당 레이블이 있는 데이터의 하위 집합으로만 구성됩니다. 원래 CivilComments 릴리스의 일부였던 다른 속성은 원시 데이터에만 포함됩니다. 사용 가능한 기능에 대한 자세한 내용은 Kaggle 설명서를 참조하십시오.

이 데이터 세트의 댓글은 독립 뉴스 사이트용 댓글 플러그인인 Civil Comments 플랫폼의 아카이브에서 가져왔습니다. 이러한 공개 댓글은 2015년부터 2017년까지 작성되었으며 전 세계 약 50개의 영어 뉴스 사이트에 게재되었습니다. Civil Comments가 2017년에 종료되었을 때 그들은 향후 연구를 가능하게 하기 위해 지속적인 공개 아카이브에서 공개 의견을 사용할 수 있도록 선택했습니다. figshare에 게시된 원본 데이터에는 공개 댓글 텍스트, 기사 ID, 게시 ID, 타임스탬프 및 댓글 작성자가 생성한 "시민성" 레이블과 같은 일부 관련 메타데이터가 포함되지만 사용자 ID는 포함되지 않습니다. Jigsaw는 독성, 신원 언급 및 은밀한 공격에 대한 추가 레이블을 추가하여 이 데이터 세트를 확장했습니다. 이 데이터 세트는 Jigsaw Unintended Bias in Toxicity Classification Kaggle 챌린지에 대해 공개된 데이터의 정확한 복제본입니다. 이 데이터 세트는 기본 주석 텍스트와 마찬가지로 CC0에서 릴리스됩니다.

시민 댓글 데이터에도 parent_id가 있는 댓글의 경우 이전 댓글의 텍스트를 "parent_text" 기능으로 제공합니다. 이 정보를 고려하지 않고 분할이 이루어졌으므로 이전 주석을 사용하면 일부 정보가 누출될 수 있습니다. 주석 작성자는 레이블을 만들 때 상위 텍스트에 액세스할 수 없었습니다.

  • 홈페이지 : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • 소스 코드 : tfds.text.CivilComments

  • 버전 :

    • 1.0.0 : 초기 정식 릴리스.
    • 1.0.1 : 각 댓글에 고유 ID를 추가했습니다.
    • 1.1.0 : CivilCommentsCovert 구성이 추가되었습니다.
    • 1.1.1 : 올바른 체크섬이 있는 CivilCommentsCovert 구성이 추가되었습니다.
    • 1.1.2 : CivilCommentsCovert 데이터 세트에 대한 별도의 인용이 추가되었습니다.
    • 1.1.3 : float에서 string으로 id 유형을 수정했습니다.
    • 1.2.0 : 독성 스팬, 컨텍스트 및 상위 댓글 텍스트 기능을 추가합니다.
    • 1.2.1 : 컨텍스트 분할에서 잘못된 서식을 수정합니다.
    • 1.2.2 : 기차 분할만 있는 컨텍스트를 반영하도록 업데이트합니다.
    • 1.2.3 : 데이터 문제를 수정하면서 CivilCommentsCovert에 경고를 추가합니다.
    • 1.2.4 (기본값): 게시 ID 및 댓글 타임스탬프를 추가합니다.
  • 다운로드 크기 : 427.41 MiB

  • 그림 ( tfds.show_examples ): 지원되지 않습니다.

civil_comments/CivilComments(기본 구성)

  • 구성 설명 : 여기에 설정된 CivilComments에는 모든 데이터가 포함되지만 기본 7개 레이블(독성, 심한_독성, 음란, 위협, 모욕, 정체성_공격 및 성적인_노골적)만 포함됩니다.

  • 데이터세트 크기 : 1.54 GiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 97,320
'train' 1,804,874
'validation' 97,320
  • 기능 구조 :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
기사 ID 텐서 int32
만든 날짜 텐서
ID 텐서
신원 공격 텐서 float32
모욕 텐서 float32
역겨운 텐서 float32
parent_id 텐서 int32
parent_text 텍스트
publication_id 텐서
심한 독성 텐서 float32
성적_노골적 텐서 float32
텍스트 텍스트
위협 텐서 float32
독성 텐서 float32
  • 인용 :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsIdentities

  • 구성 설명 : 여기에 설정된 CivilCommentsIdentities에는 기본 7개 레이블 외에 확장된 ID 레이블 세트가 포함되어 있습니다. 그러나 여기에는 이러한 모든 기능이 있는 데이터의 하위 집합(약 1/4)만 포함됩니다.

  • 데이터 세트 크기 : 654.97 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 21,577
'train' 405,130
'validation' 21,293
  • 기능 구조 :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
기사 ID 텐서 int32
아시아 사람 텐서 float32
무신론자 텐서 float32
양성애자 텐서 float32
검은색 텐서 float32
불교 텐서 float32
신자 텐서 float32
만든 날짜 텐서
여성 텐서 float32
이성애자 텐서 float32
힌두 인 텐서 float32
homosexual_gay_or_lesbian 텐서 float32
ID 텐서
신원 공격 텐서 float32
모욕 텐서 float32
지적_or_학습_장애 텐서 float32
유태인 텐서 float32
라틴계 텐서 float32
남성 텐서 float32
이슬람교도 텐서 float32
역겨운 텐서 float32
other_disability 텐서 float32
other_gender 텐서 float32
other_race_or_ethnicity 텐서 float32
other_religion 텐서 float32
other_sexual_orientation 텐서 float32
parent_id 텐서 int32
parent_text 텍스트
신체 장애 텐서 float32
정신과 또는 정신 질환 텐서 float32
publication_id 텐서
심한 독성 텐서 float32
성적_노골적 텐서 float32
텍스트 텍스트
위협 텐서 float32
독성 텐서 float32
트랜스 젠더 텐서 float32
하얀색 텐서 float32
  • 인용 :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilComments은폐

  • 구성 설명 : 경고: CivilCommentsCovert에 잠재적인 데이터 품질 문제가 있으며 이를 수정하기 위해 적극적으로 노력하고 있습니다(06/28/22). 기본 데이터가 변경될 수 있습니다!

CivilCommentsCovert 세트는 독성 및 식별 레이블 외에도 은밀한 공격성에 대해 주석이 추가로 추가된 기차 및 테스트 분할의 ~20%가 있는 CivilCommentsIdentities의 하위 집합입니다. 평가자들은 댓글을 명시적, 암시적, 그렇지 않음 또는 공격적인지 확실하지 않은 것으로 분류하고 다양한 유형의 은밀한 공격성을 포함하는지 여부를 묻도록 요청했습니다. 전체 주석 절차는 https://sites.google.com/corp/view/hciandnlp/accepted-papers 의 향후 문서에 자세히 설명되어 있습니다.

  • 데이터 세트 크기 : 97.83 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 2,455
'train' 48,074
  • 기능 구조 :
FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
기사 ID 텐서 int32
아시아 사람 텐서 float32
무신론자 텐서 float32
양성애자 텐서 float32
검은색 텐서 float32
불교 텐서 float32
신자 텐서 float32
은밀한_이모티콘_이모지 텐서 float32
은밀한 유머 텐서 float32
covert_masked_harm 텐서 float32
covert_microaggression 텐서 float32
은밀한 난독화 텐서 float32
은밀한 정치 텐서 float32
은밀한 풍자 텐서 float32
만든 날짜 텐서
명시적으로 공격적 텐서 float32
여성 텐서 float32
이성애자 텐서 float32
힌두 인 텐서 float32
homosexual_gay_or_lesbian 텐서 float32
ID 텐서
신원 공격 텐서 float32
암묵적으로 공격적 텐서 float32
모욕 텐서 float32
지적_or_학습_장애 텐서 float32
유태인 텐서 float32
라틴계 텐서 float32
남성 텐서 float32
이슬람교도 텐서 float32
not_offensive 텐서 float32
not_sure_offensive 텐서 float32
역겨운 텐서 float32
other_disability 텐서 float32
other_gender 텐서 float32
other_race_or_ethnicity 텐서 float32
other_religion 텐서 float32
other_sexual_orientation 텐서 float32
parent_id 텐서 int32
parent_text 텍스트
신체장애 텐서 float32
정신과 또는 정신 질환 텐서 float32
publication_id 텐서
심한 독성 텐서 float32
성적_노골적 텐서 float32
텍스트 텍스트
위협 텐서 float32
독성 텐서 float32
트랜스 젠더 텐서 float32
하얀색 텐서 float32
  • 인용 :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

civil_comments/CivilCommentsToxicSpans

  • 구성 설명 : CivilComments 독성 범위는 범위 수준에서 레이블이 지정된 CivilComments의 하위 집합입니다. 대부분의 주석자가 독성으로 태그가 지정된 모든 문자(유니코드 코드 포인트) 경계의 인덱스는 '범위' 기능에서 반환됩니다.

  • 데이터 세트 크기 : 5.81 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'test' 2,000
'train' 7,939
'validation' 682
  • 기능 구조 :
FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
기사 ID 텐서 int32
만든 날짜 텐서
ID 텐서
parent_id 텐서 int32
parent_text 텍스트
publication_id 텐서
경간 텐서 (없음,) int32
텍스트 텍스트
  • 인용 :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

civil_comments/CivilCommentsInContext

  • 구성 설명 : 컨텍스트의 CivilComments는 라벨러가 parent_text를 사용할 수 있도록 하여 라벨이 지정된 CivilComments의 하위 집합입니다. contextual_toxicity 기능이 포함되어 있습니다.

  • 데이터 세트 크기 : 9.63 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 9,969
  • 기능 구조 :
FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
기사 ID 텐서 int32
contextual_독성 텐서 float32
만든 날짜 텐서
ID 텐서
신원 공격 텐서 float32
모욕 텐서 float32
역겨운 텐서 float32
parent_id 텐서 int32
parent_text 텍스트
publication_id 텐서
심한 독성 텐서 float32
성적_노골적 텐서 float32
텍스트 텍스트
위협 텐서 float32
독성 텐서 float32
  • 인용 :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}