- Descrição :
Os comentários neste conjunto de dados vêm de um arquivo de comentários da página de discussão da Wikipédia. Estes foram anotados por Jigsaw para toxicidade, bem como (para a configuração principal) uma variedade de subtipos de toxicidade, incluindo toxicidade severa, obscenidade, linguagem ameaçadora, linguagem ofensiva e ataques de identidade. Este conjunto de dados é uma réplica dos dados lançados para a competição Jigsaw Toxic Comment Classification Challenge e Jigsaw Multilingual Toxic Comment Classification no Kaggle, com o conjunto de dados de teste mesclado com os test_labels lançados após o término das competições. Dados de teste não usados para pontuação foram descartados. Este conjunto de dados é liberado sob CC0, assim como o texto do comentário subjacente.
Código -fonte:
tfds.text.WikipediaToxicitySubtypes
Versões :
-
0.2.0
: Recursos atualizados para consistência com o conjunto de dados CivilComments. -
0.3.0
: Adicionada configuração WikipediaToxicityMultilingual. -
0.3.1
(padrão): Adicionado um id exclusivo para cada comentário. (Para a configuração multilíngue, eles são exclusivos apenas em cada divisão.)
-
Tamanho do download :
50.57 MiB
Cache automático ( documentação ): Sim
Chaves supervisionadas (consulte o documento
as_supervised
):('text', 'toxicity')
Figura ( tfds.show_examples ): Não suportado.
Citação :
@inproceedings{10.1145/3038912.3052591,
author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
title = {Ex Machina: Personal Attacks Seen at Scale},
year = {2017},
isbn = {9781450349130},
publisher = {International World Wide Web Conferences Steering Committee},
address = {Republic and Canton of Geneva, CHE},
url = {https://doi.org/10.1145/3038912.3052591},
doi = {10.1145/3038912.3052591},
booktitle = {Proceedings of the 26th International Conference on World Wide Web},
pages = {1391-1399},
numpages = {9},
keywords = {online discussions, wikipedia, online harassment},
location = {Perth, Australia},
series = {WWW '17}
}
wikipedia_toxicity_subtypes/EnglishSubtypes (configuração padrão)
- Descrição da configuração : Os comentários na configuração WikipediaToxicitySubtypes são de um arquivo de comentários da página de discussão da Wikipedia em inglês que foram anotados por Jigsaw quanto à toxicidade, bem como cinco rótulos de subtipo de toxicidade (toxicidade grave, obsceno, ameaça, insulto, ataque de identidade). Os rótulos de toxicidade e subtipo de toxicidade são valores binários (0 ou 1) indicando se a maioria dos anotadores atribuiu esse atributo ao texto do comentário. Esta configuração é uma réplica dos dados lançados para o Jigsaw Toxic Comment Classification Challenge no Kaggle, com o conjunto de dados de teste unido aos test_labels lançados após a competição e os dados de teste não usados para pontuação descartados.
Consulte a documentação do Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data ou https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 para obter mais detalhes.
Página inicial : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
Tamanho do conjunto de dados :
128.32 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 63.978 |
'train' | 159.571 |
- Estrutura de recursos :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'identity_attack': float32,
'insult': float32,
'language': Text(shape=(), dtype=string),
'obscene': float32,
'severe_toxicity': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
Eu iria | Texto | corda | ||
Identity_attack | tensor | float32 | ||
insulto | tensor | float32 | ||
Língua | Texto | corda | ||
obsceno | tensor | float32 | ||
toxicidade_grave | tensor | float32 | ||
texto | Texto | corda | ||
ameaça | tensor | float32 | ||
toxicidade | tensor | float32 |
- Exemplos ( tfds.as_dataframe ):
wikipedia_toxicity_subtypes/Multilingual
- Descrição da configuração : Os comentários na configuração WikipediaToxicityMultilingual aqui são de um arquivo de comentários da página de discussão da Wikipédia não em inglês anotados por Jigsaw para toxicidade, com um valor binário (0 ou 1) indicando se a maioria dos anotadores classificou o texto do comentário como tóxico. Os comentários nesta configuração estão em vários idiomas diferentes (turco, italiano, espanhol, português, russo e francês). Esta configuração é uma réplica dos dados liberados para o Jigsaw Multilingual Toxic Comment Classification no Kaggle, com o conjunto de dados de teste unido aos test_labels lançados após a competição.
Consulte a documentação do Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data para obter mais detalhes.
Página inicial : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
Tamanho do conjunto de dados :
35.13 MiB
Divisões :
Dividir | Exemplos |
---|---|
'test' | 63.812 |
'validation' | 8.000 |
- Estrutura de recursos :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'language': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'toxicity': float32,
})
- Documentação do recurso:
Característica | Classe | Forma | Tipo D | Descrição |
---|---|---|---|---|
RecursosDict | ||||
Eu iria | Texto | corda | ||
Língua | Texto | corda | ||
texto | Texto | corda | ||
toxicidade | tensor | float32 |
- Exemplos ( tfds.as_dataframe ):