TFDS obsługuje teraz format Croissant 🥐 ! Przeczytaj dokumentację , aby dowiedzieć się więcej.

Ta strona została przetłumaczona przez Cloud Translation API.

cywilne_komentarze

opis :

Ta wersja zestawu danych CivilComments zapewnia dostęp do siedmiu głównych etykiet, które zostały opatrzone adnotacjami przez pracowników społecznościowych. Toksyczność i inne znaczniki mają wartość z zakresu od 0 do 1, co wskazuje, jaka część adnotatorów przypisała te atrybuty do tekstu komentarza.

Pozostałe znaczniki są dostępne tylko dla części przykładów wejściowych. Obecnie są one ignorowane w głównym zbiorze danych; zestaw CivilCommentsIdentities zawiera te etykiety, ale składa się tylko z podzbioru danych wraz z nimi. Inne atrybuty, które były częścią oryginalnej wersji programu CivilComments, są uwzględniane tylko w surowych danych. Zobacz dokumentację Kaggle, aby uzyskać więcej informacji na temat dostępnych funkcji.

Komentarze w tym zbiorze danych pochodzą z archiwum platformy Civil Comments, wtyczki komentującej dla niezależnych serwisów informacyjnych. Te publiczne komentarze powstały w latach 2015-2017 i pojawiły się w około 50 anglojęzycznych serwisach informacyjnych na całym świecie. Kiedy Civil Comments zostało zamknięte w 2017 roku, postanowili udostępnić komentarze publiczne w trwałym otwartym archiwum, aby umożliwić przyszłe badania. Oryginalne dane, opublikowane na figshare, obejmują tekst publicznego komentarza, niektóre powiązane metadane, takie jak identyfikatory artykułów, identyfikatory publikacji, znaczniki czasu i etykiety „uprzejmości” generowane przez komentatorów, ale nie zawierają identyfikatorów użytkowników. Jigsaw rozszerzył ten zestaw danych, dodając dodatkowe etykiety toksyczności, wzmianek o tożsamości, a także ukrytej obraźliwości. Ten zestaw danych jest dokładną repliką danych opublikowanych w ramach wyzwania Jigsaw Unintended Bias in Toxicity Classification Kaggle. Ten zestaw danych jest udostępniany na licencji CC0, podobnie jak tekst komentarza.

W przypadku komentarzy, które mają parametr parent_id również w danych komentarzy cywilnych, tekst poprzedniego komentarza jest udostępniany jako funkcja „parent_text”. Zwróć uwagę, że podziały zostały dokonane bez uwzględnienia tych informacji, więc korzystanie z poprzednich komentarzy może spowodować wyciek niektórych informacji. Adnotatorzy nie mieli dostępu do tekstu nadrzędnego podczas tworzenia etykiet.

Strona główna : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
Kod źródłowy : tfds.text.CivilComments
Wersje :
- 1.0.0 : Początkowa pełna wersja.
- 1.0.1 : Dodano unikalny identyfikator dla każdego komentarza.
- 1.1.0 : Dodano konfigurację CivilCommentsCovert.
- 1.1.1 : Dodano konfigurację CivilCommentsCovert z poprawną sumą kontrolną.
- 1.1.2 : Dodano osobny cytat dla zestawu danych CivilCommentsCovert.
- 1.1.3 : Poprawiono typy id z float na string.
- 1.2.0 : Dodaj toksyczne rozpiętości, kontekst i funkcje tekstu komentarzy nadrzędnych.
- 1.2.1 : Napraw nieprawidłowe formatowanie w podziale kontekstu.
- 1.2.2 : Aktualizacja, aby odzwierciedlić kontekst tylko z podziałem pociągów.
- 1.2.3 : Dodaj ostrzeżenie do CivilCommentsCovert, gdy naprawimy problem z danymi.
- 1.2.4 (domyślnie): Dodaj identyfikatory publikacji i znaczniki czasu komentarzy.
Rozmiar pliku do pobrania : 427.41 MiB
Rysunek ( tfds.show_examples ): Nieobsługiwany.

civil_comments/CivilComments (domyślna konfiguracja)

Opis konfiguracji : zestaw CivilComments zawiera wszystkie dane, ale tylko siedem podstawowych etykiet (toksyczność, poważna_toksyczność, nieprzyzwoitość, groźba, zniewaga, atak_na tożsamość i wyraźna seksualność).
Rozmiar zestawu danych : 1.54 GiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :

Podział	Przykłady
`'test'`	97320
`'train'`	1 804 874
`'validation'`	97320

Struktura funkcji :

FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
identyfikator_artykułu	Napinacz	int32
stworz Date	Napinacz	strunowy
ID	Napinacz	strunowy
atak_na tożsamość	Napinacz	pływak32
znieważenie	Napinacz	pływak32
nieprzyzwoity	Napinacz	pływak32
ID rodzica	Napinacz	int32
tekst_nadrzędny	Tekst	strunowy
identyfikator_publikacji	Napinacz	strunowy
ciężka_toksyczność	Napinacz	pływak32
seksualne_wyraźne	Napinacz	pływak32
tekst	Tekst	strunowy
zagrożenie	Napinacz	pływak32
toksyczność	Napinacz	pływak32

Nadzorowane klucze (patrz as_supervised doc ): ('text', 'toxicity')
Przykłady ( tfds.as_dataframe ):

Cytat :

@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsIdentities

Opis konfiguracji : zestaw CivilCommentsIdentities zawiera rozszerzony zestaw etykiet identyfikacyjnych oprócz siedmiu podstawowych etykiet. Obejmuje jednak tylko podzbiór (mniej więcej jedną czwartą) danych ze wszystkimi tymi cechami.
Rozmiar zestawu danych : 654.97 MiB
Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :

Podział	Przykłady
`'test'`	21577
`'train'`	405130
`'validation'`	21293

Struktura funkcji :

FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
identyfikator_artykułu	Napinacz	int32
azjatycki	Napinacz	pływak32
ateista	Napinacz	pływak32
biseksualny	Napinacz	pływak32
czarny	Napinacz	pływak32
buddyjski	Napinacz	pływak32
chrześcijanin	Napinacz	pływak32
stworz Date	Napinacz	strunowy
Kobieta	Napinacz	pływak32
heteroseksualny	Napinacz	pływak32
Hindus	Napinacz	pływak32
homoseksualny_gej_lub_lesbijka	Napinacz	pływak32
ID	Napinacz	strunowy
atak_na tożsamość	Napinacz	pływak32
znieważenie	Napinacz	pływak32
niepełnosprawność_intelektualna_lub_uczenie się	Napinacz	pływak32
żydowski	Napinacz	pływak32
latynos	Napinacz	pływak32
Mężczyzna	Napinacz	pływak32
muzułmański	Napinacz	pływak32
nieprzyzwoity	Napinacz	pływak32
inna_niepełnosprawność	Napinacz	pływak32
inna_płeć	Napinacz	pływak32
inna_rasa_lub_pochodzenie etniczne	Napinacz	pływak32
inna_religia	Napinacz	pływak32
inna_orientacja_seksualna	Napinacz	pływak32
ID rodzica	Napinacz	int32
tekst_nadrzędny	Tekst	strunowy
kalectwo fizyczne	Napinacz	pływak32
choroba_psychiatryczna_lub_umysłowa	Napinacz	pływak32
identyfikator_publikacji	Napinacz	strunowy
ciężka_toksyczność	Napinacz	pływak32
seksualne_wyraźne	Napinacz	pływak32
tekst	Tekst	strunowy
zagrożenie	Napinacz	pływak32
toksyczność	Napinacz	pływak32
transpłciowy	Napinacz	pływak32
biały	Napinacz	pływak32

Nadzorowane klucze (patrz as_supervised doc ): ('text', 'toxicity')
Przykłady ( tfds.as_dataframe ):

Cytat :

@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsCovert

Opis konfiguracji : OSTRZEŻENIE: istnieje potencjalny problem z jakością danych w CivilCommentsCovert, nad którym aktywnie pracujemy (28.06.22); podstawowe dane mogą ulec zmianie!

Zestaw CivilCommentsCovert jest podzbiorem CivilCommentsIdentities z ok. 20% podziałów pociągów i testów dodatkowo opatrzonych adnotacjami pod kątem ukrytej obraźliwości, oprócz etykiet toksyczności i tożsamości. Oceniających poproszono o kategoryzowanie komentarzy jako jawnie, pośrednio, nie lub niepewnie, czy są obraźliwe, a także czy zawierają różne rodzaje ukrytej obraźliwości. Pełna procedura adnotacji jest szczegółowo opisana w dokumencie, który ma się ukazać na stronie https://sites.google.com/corp/view/hciandnlp/accepted-papers

Rozmiar zestawu danych : 97.83 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :

Podział	Przykłady
`'test'`	2455
`'train'`	48074

Struktura funkcji :

FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
identyfikator_artykułu	Napinacz	int32
azjatycki	Napinacz	pływak32
ateista	Napinacz	pływak32
biseksualny	Napinacz	pływak32
czarny	Napinacz	pływak32
buddyjski	Napinacz	pływak32
chrześcijanin	Napinacz	pływak32
ukryte_emotikony_emotikony	Napinacz	pływak32
ukryty_humor	Napinacz	pływak32
ukryta_zamaskowana_szkoda	Napinacz	pływak32
ukryta_mikroagresja	Napinacz	pływak32
ukryte_zaciemnianie	Napinacz	pływak32
tajne_polityczne	Napinacz	pływak32
ukryty_sarkazm	Napinacz	pływak32
stworz Date	Napinacz	strunowy
jawnie_obraźliwe	Napinacz	pływak32
Kobieta	Napinacz	pływak32
heteroseksualny	Napinacz	pływak32
Hindus	Napinacz	pływak32
homoseksualny_gej_lub_lesbijka	Napinacz	pływak32
ID	Napinacz	strunowy
atak_na tożsamość	Napinacz	pływak32
implicitly_obraźliwe	Napinacz	pływak32
znieważenie	Napinacz	pływak32
niepełnosprawność_intelektualna_lub_uczenie się	Napinacz	pływak32
żydowski	Napinacz	pływak32
latynos	Napinacz	pływak32
Mężczyzna	Napinacz	pływak32
muzułmański	Napinacz	pływak32
nie_obraźliwe	Napinacz	pływak32
nie_pewnie_obraźliwe	Napinacz	pływak32
nieprzyzwoity	Napinacz	pływak32
inna_niepełnosprawność	Napinacz	pływak32
inna_płeć	Napinacz	pływak32
inna_rasa_lub_pochodzenie etniczne	Napinacz	pływak32
inna_religia	Napinacz	pływak32
inna_orientacja_seksualna	Napinacz	pływak32
ID rodzica	Napinacz	int32
tekst_nadrzędny	Tekst	strunowy
kalectwo fizyczne	Napinacz	pływak32
choroba_psychiatryczna_lub_umysłowa	Napinacz	pływak32
identyfikator_publikacji	Napinacz	strunowy
ciężka_toksyczność	Napinacz	pływak32
seksualne_wyraźne	Napinacz	pływak32
tekst	Tekst	strunowy
zagrożenie	Napinacz	pływak32
toksyczność	Napinacz	pływak32
transpłciowy	Napinacz	pływak32
biały	Napinacz	pływak32

Nadzorowane klucze (patrz as_supervised doc ): ('text', 'toxicity')
Przykłady ( tfds.as_dataframe ):

Cytat :

@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

civil_comments/CivilCommentsToxicSpans

Opis konfiguracji : Toksyczne rozpiętości CivilComments są podzbiorem CivilComments oznaczonym na poziomie rozpiętości — indeksy wszystkich granic znaków (punktów kodowych Unicode), które zostały oznaczone jako toksyczne przez większość adnotatorów, są zwracane w funkcji „rozpiętości”.
Rozmiar zestawu danych : 5.81 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :

Podział	Przykłady
`'test'`	2000
`'train'`	7939
`'validation'`	682

Struktura funkcji :

FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
identyfikator_artykułu	Napinacz		int32
stworz Date	Napinacz		strunowy
ID	Napinacz		strunowy
ID rodzica	Napinacz		int32
tekst_nadrzędny	Tekst		strunowy
identyfikator_publikacji	Napinacz		strunowy
rozpiętości	Napinacz	(Nic,)	int32
tekst	Tekst		strunowy

Klucze nadzorowane (zobacz dokument as_supervised ): ('text', 'spans')
Przykłady ( tfds.as_dataframe ):

Cytat :

@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

civil_comments/CivilCommentsInContext

Opis konfiguracji : CivilComments in Context jest podzbiorem CivilComments, który został oznaczony etykietą poprzez udostępnienie osobom zajmującym się etykietowaniem elementu parent_text. Zawiera funkcję contextual_toxicity.
Rozmiar zestawu danych : 9.63 MiB
Automatyczne buforowanie ( dokumentacja ): Tak
Podziały :

Podział	Przykłady
`'train'`	9969

Struktura funkcji :

FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})

Dokumentacja funkcji :

Funkcja	Klasa	Typ D
	FunkcjeDict
identyfikator_artykułu	Napinacz	int32
kontekstowa_toksyczność	Napinacz	pływak32
stworz Date	Napinacz	strunowy
ID	Napinacz	strunowy
atak_na tożsamość	Napinacz	pływak32
znieważenie	Napinacz	pływak32
nieprzyzwoity	Napinacz	pływak32
ID rodzica	Napinacz	int32
tekst_nadrzędny	Tekst	strunowy
identyfikator_publikacji	Napinacz	strunowy
ciężka_toksyczność	Napinacz	pływak32
seksualne_wyraźne	Napinacz	pływak32
tekst	Tekst	strunowy
zagrożenie	Napinacz	pływak32
toksyczność	Napinacz	pływak32

Nadzorowane klucze (patrz as_supervised doc ): ('text', 'toxicity')
Przykłady ( tfds.as_dataframe ):

Cytat :

@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}