wikipedia_toxicity_subtypes

  • Descrição :

Os comentários neste conjunto de dados vêm de um arquivo de comentários da página de discussão da Wikipédia. Estes foram anotados por Jigsaw para toxicidade, bem como (para a configuração principal) uma variedade de subtipos de toxicidade, incluindo toxicidade severa, obscenidade, linguagem ameaçadora, linguagem ofensiva e ataques de identidade. Este conjunto de dados é uma réplica dos dados lançados para a competição Jigsaw Toxic Comment Classification Challenge e Jigsaw Multilingual Toxic Comment Classification no Kaggle, com o conjunto de dados de teste mesclado com os test_labels lançados após o término das competições. Dados de teste não usados ​​para pontuação foram descartados. Este conjunto de dados é liberado sob CC0, assim como o texto do comentário subjacente.

  • Código -fonte: tfds.text.WikipediaToxicitySubtypes

  • Versões :

    • 0.2.0 : Recursos atualizados para consistência com o conjunto de dados CivilComments.
    • 0.3.0 : Adicionada configuração WikipediaToxicityMultilingual.
    • 0.3.1 (padrão): Adicionado um id exclusivo para cada comentário. (Para a configuração multilíngue, eles são exclusivos apenas em cada divisão.)
  • Tamanho do download : 50.57 MiB

  • Cache automático ( documentação ): Sim

  • Chaves supervisionadas (consulte o documento as_supervised ): ('text', 'toxicity')

  • Figura ( tfds.show_examples ): Não suportado.

  • Citação :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSubtypes (configuração padrão)

  • Descrição da configuração : Os comentários na configuração WikipediaToxicitySubtypes são de um arquivo de comentários da página de discussão da Wikipedia em inglês que foram anotados por Jigsaw quanto à toxicidade, bem como cinco rótulos de subtipo de toxicidade (toxicidade grave, obsceno, ameaça, insulto, ataque de identidade). Os rótulos de toxicidade e subtipo de toxicidade são valores binários (0 ou 1) indicando se a maioria dos anotadores atribuiu esse atributo ao texto do comentário. Esta configuração é uma réplica dos dados lançados para o Jigsaw Toxic Comment Classification Challenge no Kaggle, com o conjunto de dados de teste unido aos test_labels lançados após a competição e os dados de teste não usados ​​para pontuação descartados.

Consulte a documentação do Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data ou https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 para obter mais detalhes.

Dividir Exemplos
'test' 63.978
'train' 159.571
  • Estrutura de recursos :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
Eu iria Texto corda
Identity_attack tensor float32
insulto tensor float32
Língua Texto corda
obsceno tensor float32
toxicidade_grave tensor float32
texto Texto corda
ameaça tensor float32
toxicidade tensor float32

wikipedia_toxicity_subtypes/Multilingual

  • Descrição da configuração : Os comentários na configuração WikipediaToxicityMultilingual aqui são de um arquivo de comentários da página de discussão da Wikipédia não em inglês anotados por Jigsaw para toxicidade, com um valor binário (0 ou 1) indicando se a maioria dos anotadores classificou o texto do comentário como tóxico. Os comentários nesta configuração estão em vários idiomas diferentes (turco, italiano, espanhol, português, russo e francês). Esta configuração é uma réplica dos dados liberados para o Jigsaw Multilingual Toxic Comment Classification no Kaggle, com o conjunto de dados de teste unido aos test_labels lançados após a competição.

Consulte a documentação do Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data para obter mais detalhes.

Dividir Exemplos
'test' 63.812
'validation' 8.000
  • Estrutura de recursos :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
Eu iria Texto corda
Língua Texto corda
texto Texto corda
toxicidade tensor float32