wikipedia_toxicity_subtypes

opis :

Komentarze w tym zbiorze danych pochodzą z archiwum komentarzy na stronach dyskusji Wikipedii. Zostały one opisane przez Jigsawa pod kątem toksyczności, a także (dla głównej konfiguracji) różnych podtypów toksyczności, w tym poważnej toksyczności, nieprzyzwoitości, groźby językowej, obraźliwego języka i ataków tożsamości. Ten zestaw danych jest repliką danych opublikowanych w konkursie Jigsaw Toxic Comment Classification Challenge i Jigsaw Multilingual Toxic Comment Classification na Kaggle, z testowym zestawem danych połączonym z test_labels wydanymi po zakończeniu zawodów. Dane testowe, które nie były używane do oceniania, zostały usunięte. Ten zestaw danych jest udostępniany na licencji CC0, podobnie jak tekst komentarza.

Kod źródłowy : tfds.text.WikipediaToxicitySubtypes
Wersje :
- 0.2.0 : Zaktualizowane funkcje zapewniające spójność z zestawem danych CivilComments.
- 0.3.0 : Dodano wielojęzyczną konfigurację WikipediaToxicity.
- 0.3.1 (domyślnie): Dodano unikalny identyfikator dla każdego komentarza. (W przypadku konfiguracji wielojęzycznej są one unikalne tylko w obrębie każdego podziału).
Rozmiar pliku do pobrania : 50.57 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Nadzorowane klucze (patrz as_supervised doc ): ('text', 'toxicity')
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSubtypes (domyślna konfiguracja)

Opis konfiguracji: Komentarze w konfiguracji WikipediaToxicitySubtypes pochodzą z archiwum angielskich komentarzy na stronach dyskusji Wikipedii, które zostały opatrzone adnotacjami Jigsawa pod kątem toksyczności, a także pięciu etykiet podtypów toksyczności (poważna toksyczność, obsceniczne, groźba, zniewaga, atak_na tożsamość). Etykiety toksyczności i podtypu toksyczności są wartościami binarnymi (0 lub 1) wskazującymi, czy większość adnotatorów przypisała ten atrybut do tekstu komentarza. Ta konfiguracja jest repliką danych opublikowanych w wyzwaniu Jigsaw Toxic Comment Classification Challenge na Kaggle, z zestawem danych testowych połączonych z test_labels opublikowanymi po zawodach, a dane testowe niewykorzystywane do punktacji zostały usunięte.

Więcej informacji można znaleźć w dokumentacji Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data lub https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 .

Strona główna : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
Rozmiar zestawu danych : 128.32 MiB
Podziały :

Rozdzielać	Przykłady
`'test'`	63 978
`'train'`	159571

Struktura funkcji :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
ID	Tekst	strunowy
atak_na tożsamość	Napinacz	pływak32
zniewaga	Napinacz	pływak32
język	Tekst	strunowy
nieprzyzwoity	Napinacz	pływak32
ciężka_toksyczność	Napinacz	pływak32
tekst	Tekst	strunowy
groźba	Napinacz	pływak32
toksyczność	Napinacz	pływak32

Przykłady ( tfds.as_dataframe ):

wikipedia_toxicity_subtypes/Wielojęzyczny

Opis konfiguracji: Komentarze w konfiguracji WikipediaToxicityMultilingual pochodzą z archiwum komentarzy na stronach dyskusji Wikipedii w języku innym niż angielski, opatrzonych adnotacjami Jigsawa pod kątem toksyczności, z wartością binarną (0 lub 1) wskazującą, czy większość adnotatorów oceniła tekst komentarza jako toksyczny. Komentarze w tej konfiguracji są w wielu różnych językach (tureckim, włoskim, hiszpańskim, portugalskim, rosyjskim i francuskim). Ta konfiguracja jest repliką danych wydanych dla Jigsaw Multilingual Toxic Comment Classification na Kaggle, z testowym zestawem danych połączonym z test_labels wydanymi po zawodach.

Zobacz dokumentację Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data , aby uzyskać więcej informacji.

Strona główna : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
Rozmiar zestawu danych : 35.13 MiB
Podziały :

Rozdzielać	Przykłady
`'test'`	63812
`'validation'`	8000

Struktura funkcji :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
ID	Tekst	strunowy
język	Tekst	strunowy
tekst	Tekst	strunowy
toksyczność	Napinacz	pływak32

Przykłady ( tfds.as_dataframe ):

wikipedia_toxicity_subtypes Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

wikipedia_toxicity_subtypes/EnglishSubtypes (domyślna konfiguracja)

wikipedia_toxicity_subtypes/Wielojęzyczny

wikipedia_toxicity_subtypes