- opis :
Komentarze w tym zbiorze danych pochodzą z archiwum komentarzy na stronach dyskusji Wikipedii. Zostały one opisane przez Jigsawa pod kątem toksyczności, a także (dla głównej konfiguracji) różnych podtypów toksyczności, w tym poważnej toksyczności, nieprzyzwoitości, groźby językowej, obraźliwego języka i ataków tożsamości. Ten zestaw danych jest repliką danych opublikowanych w konkursie Jigsaw Toxic Comment Classification Challenge i Jigsaw Multilingual Toxic Comment Classification na Kaggle, z testowym zestawem danych połączonym z test_labels wydanymi po zakończeniu zawodów. Dane testowe, które nie były używane do oceniania, zostały usunięte. Ten zestaw danych jest udostępniany na licencji CC0, podobnie jak tekst komentarza.
Kod źródłowy :
tfds.text.WikipediaToxicitySubtypes
Wersje :
-
0.2.0
: Zaktualizowane funkcje zapewniające spójność z zestawem danych CivilComments. -
0.3.0
: Dodano wielojęzyczną konfigurację WikipediaToxicity. -
0.3.1
(domyślnie): Dodano unikalny identyfikator dla każdego komentarza. (W przypadku konfiguracji wielojęzycznej są one unikalne tylko w obrębie każdego podziału).
-
Rozmiar pliku do pobrania :
50.57 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Nadzorowane klucze (patrz
as_supervised
doc ):('text', 'toxicity')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :
@inproceedings{10.1145/3038912.3052591,
author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
title = {Ex Machina: Personal Attacks Seen at Scale},
year = {2017},
isbn = {9781450349130},
publisher = {International World Wide Web Conferences Steering Committee},
address = {Republic and Canton of Geneva, CHE},
url = {https://doi.org/10.1145/3038912.3052591},
doi = {10.1145/3038912.3052591},
booktitle = {Proceedings of the 26th International Conference on World Wide Web},
pages = {1391-1399},
numpages = {9},
keywords = {online discussions, wikipedia, online harassment},
location = {Perth, Australia},
series = {WWW '17}
}
wikipedia_toxicity_subtypes/EnglishSubtypes (domyślna konfiguracja)
- Opis konfiguracji: Komentarze w konfiguracji WikipediaToxicitySubtypes pochodzą z archiwum angielskich komentarzy na stronach dyskusji Wikipedii, które zostały opatrzone adnotacjami Jigsawa pod kątem toksyczności, a także pięciu etykiet podtypów toksyczności (poważna toksyczność, obsceniczne, groźba, zniewaga, atak_na tożsamość). Etykiety toksyczności i podtypu toksyczności są wartościami binarnymi (0 lub 1) wskazującymi, czy większość adnotatorów przypisała ten atrybut do tekstu komentarza. Ta konfiguracja jest repliką danych opublikowanych w wyzwaniu Jigsaw Toxic Comment Classification Challenge na Kaggle, z zestawem danych testowych połączonych z test_labels opublikowanymi po zawodach, a dane testowe niewykorzystywane do punktacji zostały usunięte.
Więcej informacji można znaleźć w dokumentacji Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data lub https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 .
Strona główna : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
Rozmiar zestawu danych :
128.32 MiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 63 978 |
'train' | 159571 |
- Struktura funkcji :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'identity_attack': float32,
'insult': float32,
'language': Text(shape=(), dtype=string),
'obscene': float32,
'severe_toxicity': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
ID | Tekst | strunowy | ||
atak_na tożsamość | Napinacz | pływak32 | ||
zniewaga | Napinacz | pływak32 | ||
język | Tekst | strunowy | ||
nieprzyzwoity | Napinacz | pływak32 | ||
ciężka_toksyczność | Napinacz | pływak32 | ||
tekst | Tekst | strunowy | ||
groźba | Napinacz | pływak32 | ||
toksyczność | Napinacz | pływak32 |
- Przykłady ( tfds.as_dataframe ):
wikipedia_toxicity_subtypes/Wielojęzyczny
- Opis konfiguracji: Komentarze w konfiguracji WikipediaToxicityMultilingual pochodzą z archiwum komentarzy na stronach dyskusji Wikipedii w języku innym niż angielski, opatrzonych adnotacjami Jigsawa pod kątem toksyczności, z wartością binarną (0 lub 1) wskazującą, czy większość adnotatorów oceniła tekst komentarza jako toksyczny. Komentarze w tej konfiguracji są w wielu różnych językach (tureckim, włoskim, hiszpańskim, portugalskim, rosyjskim i francuskim). Ta konfiguracja jest repliką danych wydanych dla Jigsaw Multilingual Toxic Comment Classification na Kaggle, z testowym zestawem danych połączonym z test_labels wydanymi po zawodach.
Zobacz dokumentację Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data , aby uzyskać więcej informacji.
Strona główna : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
Rozmiar zestawu danych :
35.13 MiB
Podziały :
Rozdzielać | Przykłady |
---|---|
'test' | 63812 |
'validation' | 8000 |
- Struktura funkcji :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'language': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'toxicity': float32,
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształt | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
ID | Tekst | strunowy | ||
język | Tekst | strunowy | ||
tekst | Tekst | strunowy | ||
toksyczność | Napinacz | pływak32 |
- Przykłady ( tfds.as_dataframe ):