Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

cywilne_komentarze

  • Opis :

Ta wersja zbioru danych CivilComments zapewnia dostęp do siedmiu głównych etykiet, które zostały opatrzone adnotacjami przez pracowników społecznościowych. Toksyczność i inne znaczniki to wartości z zakresu od 0 do 1, wskazujące ułamek adnotatorów, którzy przypisali te atrybuty do tekstu komentarza.

Pozostałe znaczniki są dostępne tylko dla części przykładów wejściowych. Obecnie są ignorowane dla głównego zbioru danych; zestaw CivilCommentsIdentities zawiera te etykiety, ale składa się tylko z podzbioru danych z nimi. Inne atrybuty, które były częścią oryginalnej wersji CivilComments, są zawarte tylko w danych surowych. Więcej informacji na temat dostępnych funkcji znajdziesz w dokumentacji Kaggle.

Komentarze w tym zestawie danych pochodzą z archiwum platformy Civil Comments, wtyczki do komentowania dla niezależnych serwisów informacyjnych. Te publiczne komentarze zostały utworzone w latach 2015-2017 i pojawiły się w około 50 anglojęzycznych serwisach informacyjnych na całym świecie. Kiedy w 2017 r. zamknięto komentarze obywatelskie, zdecydowali się udostępnić publiczne komentarze w trwałym otwartym archiwum, aby umożliwić przyszłe badania. Oryginalne dane, opublikowane na figshare, zawierają tekst komentarza publicznego, niektóre powiązane metadane, takie jak identyfikatory artykułów, sygnatury czasowe i generowane przez komentatorów etykiety „obywatelskie”, ale nie zawierają identyfikatorów użytkowników. Jigsaw rozszerzył ten zbiór danych, dodając dodatkowe etykiety dotyczące toksyczności, wzmianek o tożsamości, a także ukrytej obraźliwości. Ten zestaw danych jest dokładną repliką danych opublikowanych w ramach wyzwania Kaggle Jigsaw niezamierzone odchylenie w klasyfikacji toksyczności. Ten zbiór danych został wydany w ramach CC0, podobnie jak tekst komentarza.

W przypadku komentarzy, które mają parent_id również w danych komentarzy cywilnych, tekst poprzedniego komentarza jest dostarczany jako funkcja „parent_text”. Zwróć uwagę, że podziały zostały dokonane bez uwzględnienia tych informacji, więc korzystanie z poprzednich komentarzy może spowodować wyciek niektórych informacji. Podczas tworzenia etykiet adnotatorzy nie mieli dostępu do tekstu nadrzędnego.

  • Strona główna : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • Kod źródłowy : tfds.text.CivilComments

  • Wersje :

    • 1.0.0 : Początkowa pełna wersja.
    • 1.0.1 : Dodano unikalny identyfikator dla każdego komentarza.
    • 1.1.0 : Dodano konfigurację CivilCommentsCovert.
    • 1.1.1 : Dodano konfigurację CivilCommentsCovert z poprawną sumą kontrolną.
    • 1.1.2 : Dodano osobny cytat dla zbioru danych CivilComments Covert.
    • 1.1.3 : Poprawiono typy identyfikatorów od float do string.
    • 1.2.0 (domyślnie) : Dodaj toksyczne span, kontekst i funkcje tekstu komentarza rodzica.
  • Pobierz rozmiar : Unknown size

  • Rozmiar zbioru danych : Unknown size

  • Automatyczne buforowanie ( dokumentacja ): Nieznane

  • Dzieli :

Podział Przykłady

Civil_comments/CivilComments (konfiguracja domyślna)

  • Opis konfiguracji: zestaw CivilComments tutaj zawiera wszystkie dane, ale tylko siedem podstawowych etykiet (toksyczność, poważna_toksyczność, obsceniczne, groźba, zniewaga, tożsamość_atak i seksualność).

  • Cechy :

FeaturesDict({
    'article_id': tf.int32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/CivilCommentsIdentities

  • Opis konfiguracji: zestaw CivilCommentsIdentities tutaj zawiera rozszerzony zestaw etykiet tożsamości oprócz podstawowych siedmiu etykiet. Zawiera jednak tylko podzbiór (mniej więcej jedną czwartą) danych ze wszystkimi tymi cechami.

  • Cechy :

FeaturesDict({
    'article_id': tf.int32,
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/CivilComments Covert

  • Opis konfiguracji: zestaw CivilCommentsCovert jest podzbiorem CivilCommentsIdentities z ~20% podziałów pociągu i testów, dodatkowo opatrzonych adnotacjami dla ukrytej ofensywy, oprócz etykiet toksyczności i tożsamości. Oceniających poproszono o zaklasyfikowanie komentarzy jako jednoznaczne, dorozumiane, nie lub niepewne, czy obraźliwe, a także czy zawierały różne rodzaje ukrytej obraźliwości. Pełna procedura dodawania adnotacji jest szczegółowo opisana w mającym się wkrótce ukazać dokumencie pod adresem https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • Cechy :

FeaturesDict({
    'article_id': tf.int32,
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'covert_emoticons_emojis': tf.float32,
    'covert_humor': tf.float32,
    'covert_masked_harm': tf.float32,
    'covert_microaggression': tf.float32,
    'covert_obfuscation': tf.float32,
    'covert_political': tf.float32,
    'covert_sarcasm': tf.float32,
    'explicitly_offensive': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'implicitly_offensive': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'not_offensive': tf.float32,
    'not_sure_offensive': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

Civil_comments/CivilCommentsToxicSpans

  • Opis konfiguracji: CivilComments Toxic Spans to podzbiór CivilComments, który jest oznaczony na poziomie span — indeksy wszystkich granic znaków (punktów kodowych Unicode), które zostały oznaczone jako toksyczne przez większość adnotatorów, są zwracane w funkcji „spans”.

  • Cechy :

FeaturesDict({
    'article_id': tf.int32,
    'id': tf.string,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'spans': Tensor(shape=(None,), dtype=tf.int32),
    'text': Text(shape=(), dtype=tf.string),
})
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

Civil_comments/CivilCommentsInContext

  • Opis konfiguracji : CivilComments Toxic Spans to podzbiór komentarzy CivilComments, który został oznaczony etykietą, udostępniając twórcom etykiet tekst_rodzica. Zawiera funkcję contextual_toxicity.

  • Cechy :

FeaturesDict({
    '_': tf.float32,
    'a': tf.float32,
    'article_id': tf.int32,
    'c': tf.float32,
    'e': tf.float32,
    'i': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'l': tf.float32,
    'n': tf.float32,
    'o': tf.float32,
    'obscene': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    't': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'u': tf.float32,
    'x': tf.float32,
    'y': tf.float32,
})
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}