O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

wikipedia_toxicity_subtypes

  • Descrição:

Os comentários neste conjunto de dados vêm de um arquivo de comentários da página de discussão da Wikipedia. Estes foram anotados pelo Jigsaw quanto à toxicidade, bem como (para a configuração principal) uma variedade de subtipos de toxicidade, incluindo toxicidade grave, obscenidade, linguagem ameaçadora, linguagem insultuosa e ataques de identidade. Este conjunto de dados é uma réplica dos dados lançados para o Jigsaw Toxic Comment Classification Challenge e a competição Jigsaw Multilingual Toxic Comment Classification no Kaggle, com o conjunto de dados de teste mesclado com os test_labels lançados após o final das competições. Os dados de teste não usados ​​para pontuação foram descartados. Este conjunto de dados é lançado sob CC0, assim como o texto do comentário subjacente.

  • O código-fonte: tfds.text.WikipediaToxicitySubtypes

  • versões:

    • 0.2.0 : Recursos atualizados para a consistência com CivilComments conjunto de dados.
    • 0.3.0 : Adicionado WikipediaToxicityMultilingual configuração.
    • 0.3.1 (padrão): Adicionado um ID único para cada comentário. (Para a configuração multilíngue, eles são exclusivos apenas em cada divisão.)
  • Tamanho do download: 50.57 MiB

  • Cache-Auto ( documentação ): Sim

  • Chaves supervisionado (Veja as_supervised doc ): ('text', 'toxicity')

  • Figura ( tfds.show_examples ): Não suportado.

  • citação:

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes / EnglishSubtypes (default config)

  • A inscrição Config: Os comentários nos WikipediaToxicitySubtypes de configuração são de um arquivo de Inglês Wikipédia comentários página de discussão que foram anotados por Jigsaw de toxicidade, bem como rótulos subtipo cinco toxicidade (toxicidade grave, obsceno, ameaça, insulto, identity_attack). Os rótulos de subtipo de toxicidade e toxicidade são valores binários (0 ou 1) que indicam se a maioria dos anotadores atribuiu esse atributo ao texto do comentário. Esta configuração é uma réplica dos dados lançados para o Jigsaw Toxic Comment Classification Challenge no Kaggle, com o conjunto de dados de teste unido aos test_labels lançados após a competição e os dados de teste não usados ​​para pontuação eliminados.

Consulte a documentação Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data ou https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 para mais detalhes.

Dividir Exemplos
'test' 63.978
'train' 159.571
  • Características:
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'language': Text(shape=(), dtype=tf.string),
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})

wikipedia_toxicity_subtypes / multilingues

  • Configuração Descrição: Os comentários no WikipediaToxicityMultilingual config-aqui são de um arquivo de não-Inglês da Wikipedia comentários página de discussão anotados por Jigsaw de toxicidade, com um valor de binário (0 ou 1) que indica se a maioria dos anotadores avaliado o comentário de texto como tóxico. Os comentários nesta configuração estão em vários idiomas diferentes (turco, italiano, espanhol, português, russo e francês). Esta configuração é uma réplica dos dados lançados para a classificação de comentários tóxicos multilingues do Jigsaw no Kaggle, com o conjunto de dados de teste unido aos test_labels lançados após a competição.

Consulte a documentação Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data para mais detalhes.

Dividir Exemplos
'test' 63.812
'validation' 8.000
  • Características:
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'language': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'toxicity': tf.float32,
})