wikipedia_tossicità_sottotipi

  • Descrizione :

I commenti in questo set di dati provengono da un archivio di commenti nelle pagine di discussione di Wikipedia. Questi sono stati annotati da Jigsaw per la tossicità, così come (per la configurazione principale) una varietà di sottotipi di tossicità, tra cui tossicità grave, oscenità, linguaggio minaccioso, linguaggio offensivo e attacchi all'identità. Questo set di dati è una replica dei dati rilasciati per il concorso Jigsaw Toxic Comment Classification Challenge e Jigsaw Multilingual Toxic Comment Classification su Kaggle, con il set di dati di test unito ai test_labels rilasciati dopo la fine delle competizioni. I dati del test non utilizzati per il punteggio sono stati eliminati. Questo set di dati è rilasciato sotto CC0, così come il testo del commento sottostante.

  • Codice sorgente : tfds.text.WikipediaToxicitySubtypes

  • Versioni :

    • 0.2.0 : funzionalità aggiornate per coerenza con il set di dati CivilComments.
    • 0.3.0 : Aggiunta WikipediaToxicityMultilingual config.
    • 0.3.1 (predefinito): Aggiunto un ID univoco per ogni commento. (Per la configurazione multilingue, questi sono univoci solo all'interno di ogni divisione.)
  • Dimensione del download : 50.57 MiB

  • Auto-cache ( documentazione ): Sì

  • Chiavi supervisionate (Vedi as_supervised doc ): ('text', 'toxicity')

  • Figura ( tfds.show_examples ): non supportato.

  • Citazione :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSottotipi (configurazione predefinita)

  • Descrizione della configurazione : i commenti nella configurazione di WikipediaToxicitySubtypes provengono da un archivio di commenti della pagina di discussione di Wikipedia in inglese che sono stati annotati da Jigsaw per la tossicità, oltre a cinque etichette di sottotipi di tossicità (tossicità grave, osceno, minaccia, insulto, identity_attack). Le etichette di tossicità e sottotipo di tossicità sono valori binari (0 o 1) che indicano se la maggior parte degli annotatori ha assegnato tale attributo al testo del commento. Questa configurazione è una replica dei dati rilasciati per la Jigsaw Toxic Comment Classification Challenge su Kaggle, con il set di dati di test unito a test_labels rilasciato dopo la competizione e i dati di test non utilizzati per il punteggio eliminati.

Consulta la documentazione di Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data o https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 per maggiori dettagli.

Diviso Esempi
'test' 63.978
'train' 159.571
  • Struttura delle caratteristiche :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
id Testo corda
attacco_identità Tensore galleggiante32
insulto Tensore galleggiante32
linguaggio Testo corda
osceno Tensore galleggiante32
grave_tossicità Tensore galleggiante32
testo Testo corda
minaccia Tensore galleggiante32
tossicità Tensore galleggiante32

wikipedia_toxicity_subtypes/Multilingue

  • Descrizione della configurazione : i commenti nella configurazione WikipediaToxicityMultilingual qui provengono da un archivio di commenti di pagine di discussione di Wikipedia non in inglese annotati da Jigsaw per la tossicità, con un valore binario (0 o 1) che indica se la maggior parte degli annotatori ha valutato il testo del commento come tossico. I commenti in questa configurazione sono in più lingue diverse (turco, italiano, spagnolo, portoghese, russo e francese). Questa configurazione è una replica dei dati rilasciati per la classificazione dei commenti tossici multilingue di Jigsaw su Kaggle, con il set di dati di test unito ai test_labels rilasciati dopo la competizione.

Consulta la documentazione di Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data per maggiori dettagli.

Diviso Esempi
'test' 63.812
'validation' 8.000
  • Struttura delle caratteristiche :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
id Testo corda
linguaggio Testo corda
testo Testo corda
tossicità Tensore galleggiante32