Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

wikipedia_toxicity_subtypes

  • opis:

Komentarze w tym zestawie danych pochodzą z archiwum komentarzy na stronie dyskusji w Wikipedii. Zostały one opisane przez Jigsawa pod kątem toksyczności, a także (dla głównej konfiguracji) różnych podtypów toksyczności, w tym poważnej toksyczności, nieprzyzwoitości, groźnego języka, obraźliwego języka i ataków na tożsamość. Ten zestaw danych jest repliką danych opublikowanych w konkursie Jigsaw Toxic Comment Classification Challenge i Jigsaw Multilingual Toxic Comment Classification Challenge na Kaggle, przy czym zestaw danych testowych został połączony z test_labels wydanymi po zakończeniu konkursów. Dane testowe nieużywane do oceny zostały usunięte. Ten zbiór danych został wydany w ramach CC0, podobnie jak tekst komentarza.

  • Kod źródłowy: tfds.text.WikipediaToxicitySubtypes

  • wersje:

    • 0.2.0 : Zaktualizowane funkcje zgodności z CivilComments zbiorze.
    • 0.3.0 : Dodano WikipediaToxicityMultilingual config.
    • 0.3.1 (domyślnie): Dodano unikatowy identyfikator dla każdego komentarza. (W przypadku konfiguracji wielojęzycznej są one unikalne tylko w ramach każdego podziału).
  • Wielkość pliku: 50.57 MiB

  • Auto-buforowane ( dokumentacja ): Tak

  • Klucze nadzorowane (patrz as_supervised doc ): ('text', 'toxicity')

  • Rysunek ( tfds.show_examples ): Nie jest obsługiwany.

  • cytat:

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes / EnglishSubtypes (default config)

  • Opis config: Komentarze w WikipediaToxicitySubtypes config pochodzą z archiwum angielskiej Wikipedii stronie dyskusji komentarze, które zostały adnotacjami przez Jigsawa na toksyczność, a także toksyczności pięć podtypów etykiet (ciężkie toksyczności, obscenicznych, groźba, obraza, identity_attack). Etykiety toksyczności i podtypów toksyczności są wartościami binarnymi (0 lub 1) wskazującymi, czy większość adnotatorów przypisała ten atrybut do tekstu komentarza. Ta konfiguracja jest repliką danych opublikowanych w ramach wyzwania Jigsaw Toxic Comment Classification Challenge na Kaggle, z zestawem danych testowych połączonym z test_labels wydanymi po zawodach, a dane testowe nieużywane do oceny zostały usunięte.

Zobacz dokumentację Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data lub https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 więcej szczegółów.

Podział Przykłady
'test' 63 978
'train' 159 571
  • Cechy:
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'language': Text(shape=(), dtype=tf.string),
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})

wikipedia_toxicity_subtypes / Multilingual

  • Opis config: Komentarze w WikipediaToxicityMultilingual config tutaj pochodzą z archiwum non-angielski Wikipedia stronie dyskusji komentarze adnotacjami przez Jigsawa dla toksyczności, o wartości binarnej (0 lub 1), wskazując, czy większość adnotatory oceniło tekst komentarz jako toksyczny. Komentarze w tej konfiguracji są w wielu różnych językach (tureckim, włoskim, hiszpańskim, portugalskim, rosyjskim i francuskim). Ta konfiguracja jest repliką danych opublikowanych na potrzeby klasyfikacji wielojęzycznych komentarzy toksycznych Jigsaw na Kaggle, z zestawem danych testowych połączonym z test_labels wydanymi po zawodach.

Zobacz dokumentację Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data więcej szczegółów.

Podział Przykłady
'test' 63 812
'validation' 8000
  • Cechy:
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'language': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'toxicity': tf.float32,
})