wikipedia_toxicity_subtypes

  • opis :

Komentarze w tym zbiorze danych pochodzą z archiwum komentarzy na stronach dyskusji Wikipedii. Zostały one opisane przez Jigsawa pod kątem toksyczności, a także (dla głównej konfiguracji) różnych podtypów toksyczności, w tym poważnej toksyczności, nieprzyzwoitości, groźby językowej, obraźliwego języka i ataków tożsamości. Ten zestaw danych jest repliką danych opublikowanych w konkursie Jigsaw Toxic Comment Classification Challenge i Jigsaw Multilingual Toxic Comment Classification na Kaggle, z testowym zestawem danych połączonym z test_labels wydanymi po zakończeniu zawodów. Dane testowe, które nie były używane do oceniania, zostały usunięte. Ten zestaw danych jest udostępniany na licencji CC0, podobnie jak tekst komentarza.

  • Kod źródłowy : tfds.text.WikipediaToxicitySubtypes

  • Wersje :

    • 0.2.0 : Zaktualizowane funkcje zapewniające spójność z zestawem danych CivilComments.
    • 0.3.0 : Dodano wielojęzyczną konfigurację WikipediaToxicity.
    • 0.3.1 (domyślnie): Dodano unikalny identyfikator dla każdego komentarza. (W przypadku konfiguracji wielojęzycznej są one unikalne tylko w obrębie każdego podziału).
  • Rozmiar pliku do pobrania : 50.57 MiB

  • Automatyczne buforowanie ( dokumentacja ): Tak

  • Nadzorowane klucze (patrz as_supervised doc ): ('text', 'toxicity')

  • Rysunek ( tfds.show_examples ): Nieobsługiwany.

  • Cytat :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSubtypes (domyślna konfiguracja)

  • Opis konfiguracji: Komentarze w konfiguracji WikipediaToxicitySubtypes pochodzą z archiwum angielskich komentarzy na stronach dyskusji Wikipedii, które zostały opatrzone adnotacjami Jigsawa pod kątem toksyczności, a także pięciu etykiet podtypów toksyczności (poważna toksyczność, obsceniczne, groźba, zniewaga, atak_na tożsamość). Etykiety toksyczności i podtypu toksyczności są wartościami binarnymi (0 lub 1) wskazującymi, czy większość adnotatorów przypisała ten atrybut do tekstu komentarza. Ta konfiguracja jest repliką danych opublikowanych w wyzwaniu Jigsaw Toxic Comment Classification Challenge na Kaggle, z zestawem danych testowych połączonych z test_labels opublikowanymi po zawodach, a dane testowe niewykorzystywane do punktacji zostały usunięte.

Więcej informacji można znaleźć w dokumentacji Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data lub https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 .

Rozdzielać Przykłady
'test' 63 978
'train' 159571
  • Struktura funkcji :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
ID Tekst strunowy
atak_na tożsamość Napinacz pływak32
zniewaga Napinacz pływak32
język Tekst strunowy
nieprzyzwoity Napinacz pływak32
ciężka_toksyczność Napinacz pływak32
tekst Tekst strunowy
groźba Napinacz pływak32
toksyczność Napinacz pływak32

wikipedia_toxicity_subtypes/Wielojęzyczny

  • Opis konfiguracji: Komentarze w konfiguracji WikipediaToxicityMultilingual pochodzą z archiwum komentarzy na stronach dyskusji Wikipedii w języku innym niż angielski, opatrzonych adnotacjami Jigsawa pod kątem toksyczności, z wartością binarną (0 lub 1) wskazującą, czy większość adnotatorów oceniła tekst komentarza jako toksyczny. Komentarze w tej konfiguracji są w wielu różnych językach (tureckim, włoskim, hiszpańskim, portugalskim, rosyjskim i francuskim). Ta konfiguracja jest repliką danych wydanych dla Jigsaw Multilingual Toxic Comment Classification na Kaggle, z testowym zestawem danych połączonym z test_labels wydanymi po zawodach.

Zobacz dokumentację Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data , aby uzyskać więcej informacji.

Rozdzielać Przykłady
'test' 63812
'validation' 8000
  • Struktura funkcji :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
ID Tekst strunowy
język Tekst strunowy
tekst Tekst strunowy
toksyczność Napinacz pływak32