- Descrizione :
I commenti in questo set di dati provengono da un archivio di commenti nelle pagine di discussione di Wikipedia. Questi sono stati annotati da Jigsaw per la tossicità, così come (per la configurazione principale) una varietà di sottotipi di tossicità, tra cui tossicità grave, oscenità, linguaggio minaccioso, linguaggio offensivo e attacchi all'identità. Questo set di dati è una replica dei dati rilasciati per il concorso Jigsaw Toxic Comment Classification Challenge e Jigsaw Multilingual Toxic Comment Classification su Kaggle, con il set di dati di test unito ai test_labels rilasciati dopo la fine delle competizioni. I dati del test non utilizzati per il punteggio sono stati eliminati. Questo set di dati è rilasciato sotto CC0, così come il testo del commento sottostante.
Codice sorgente :
tfds.text.WikipediaToxicitySubtypes
Versioni :
-
0.2.0
: funzionalità aggiornate per coerenza con il set di dati CivilComments. -
0.3.0
: Aggiunta WikipediaToxicityMultilingual config. -
0.3.1
(predefinito): Aggiunto un ID univoco per ogni commento. (Per la configurazione multilingue, questi sono univoci solo all'interno di ogni divisione.)
-
Dimensione del download :
50.57 MiB
Auto-cache ( documentazione ): Sì
Chiavi supervisionate (Vedi
as_supervised
doc ):('text', 'toxicity')
Figura ( tfds.show_examples ): non supportato.
Citazione :
@inproceedings{10.1145/3038912.3052591,
author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
title = {Ex Machina: Personal Attacks Seen at Scale},
year = {2017},
isbn = {9781450349130},
publisher = {International World Wide Web Conferences Steering Committee},
address = {Republic and Canton of Geneva, CHE},
url = {https://doi.org/10.1145/3038912.3052591},
doi = {10.1145/3038912.3052591},
booktitle = {Proceedings of the 26th International Conference on World Wide Web},
pages = {1391-1399},
numpages = {9},
keywords = {online discussions, wikipedia, online harassment},
location = {Perth, Australia},
series = {WWW '17}
}
wikipedia_toxicity_subtypes/EnglishSottotipi (configurazione predefinita)
- Descrizione della configurazione : i commenti nella configurazione di WikipediaToxicitySubtypes provengono da un archivio di commenti della pagina di discussione di Wikipedia in inglese che sono stati annotati da Jigsaw per la tossicità, oltre a cinque etichette di sottotipi di tossicità (tossicità grave, osceno, minaccia, insulto, identity_attack). Le etichette di tossicità e sottotipo di tossicità sono valori binari (0 o 1) che indicano se la maggior parte degli annotatori ha assegnato tale attributo al testo del commento. Questa configurazione è una replica dei dati rilasciati per la Jigsaw Toxic Comment Classification Challenge su Kaggle, con il set di dati di test unito a test_labels rilasciato dopo la competizione e i dati di test non utilizzati per il punteggio eliminati.
Consulta la documentazione di Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data o https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 per maggiori dettagli.
Homepage : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
Dimensione del set di dati:
128.32 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 63.978 |
'train' | 159.571 |
- Struttura delle caratteristiche :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'identity_attack': float32,
'insult': float32,
'language': Text(shape=(), dtype=string),
'obscene': float32,
'severe_toxicity': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
id | Testo | corda | ||
attacco_identità | Tensore | galleggiante32 | ||
insulto | Tensore | galleggiante32 | ||
linguaggio | Testo | corda | ||
osceno | Tensore | galleggiante32 | ||
grave_tossicità | Tensore | galleggiante32 | ||
testo | Testo | corda | ||
minaccia | Tensore | galleggiante32 | ||
tossicità | Tensore | galleggiante32 |
- Esempi ( tfds.as_dataframe ):
wikipedia_toxicity_subtypes/Multilingue
- Descrizione della configurazione : i commenti nella configurazione WikipediaToxicityMultilingual qui provengono da un archivio di commenti di pagine di discussione di Wikipedia non in inglese annotati da Jigsaw per la tossicità, con un valore binario (0 o 1) che indica se la maggior parte degli annotatori ha valutato il testo del commento come tossico. I commenti in questa configurazione sono in più lingue diverse (turco, italiano, spagnolo, portoghese, russo e francese). Questa configurazione è una replica dei dati rilasciati per la classificazione dei commenti tossici multilingue di Jigsaw su Kaggle, con il set di dati di test unito ai test_labels rilasciati dopo la competizione.
Consulta la documentazione di Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data per maggiori dettagli.
Homepage : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
Dimensione del set di dati:
35.13 MiB
Divisioni :
Diviso | Esempi |
---|---|
'test' | 63.812 |
'validation' | 8.000 |
- Struttura delle caratteristiche :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'language': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'toxicity': float32,
})
- Documentazione delle funzionalità :
Caratteristica | Classe | Forma | Tipo D | Descrizione |
---|---|---|---|---|
CaratteristicheDict | ||||
id | Testo | corda | ||
linguaggio | Testo | corda | ||
testo | Testo | corda | ||
tossicità | Tensore | galleggiante32 |
- Esempi ( tfds.as_dataframe ):