TFDS sekarang mendukung format Croissant 🥐 ! Baca dokumentasi untuk mengetahui lebih lanjut.

Halaman ini diterjemahkan oleh Cloud Translation API.

sipil_komentar

Deskripsi :

Versi CivilComments Dataset ini menyediakan akses ke tujuh label utama yang dianotasi oleh pekerja kerumunan, toksisitas dan tag lainnya adalah nilai antara 0 dan 1 yang menunjukkan fraksi annotator yang menetapkan atribut ini ke teks komentar.

Tag lain hanya tersedia untuk sebagian kecil dari contoh masukan. Mereka saat ini diabaikan untuk kumpulan data utama; set CivilCommentsIdentities menyertakan label tersebut, tetapi hanya terdiri dari subset data bersamanya. Atribut lain yang merupakan bagian dari rilis CivilComments asli hanya disertakan dalam data mentah. Lihat dokumentasi Kaggle untuk detail lebih lanjut tentang fitur yang tersedia.

Komentar dalam kumpulan data ini berasal dari arsip platform Civil Comments, sebuah plugin komentar untuk situs berita independen. Komentar publik ini dibuat dari tahun 2015 - 2017 dan muncul di sekitar 50 situs berita berbahasa Inggris di seluruh dunia. Ketika Komentar Sipil ditutup pada tahun 2017, mereka memilih untuk membuat komentar publik tersedia dalam arsip terbuka yang tahan lama untuk memungkinkan penelitian di masa mendatang. Data asli, yang dipublikasikan di figshare, mencakup teks komentar publik, beberapa metadata terkait seperti ID artikel, ID publikasi, stempel waktu, dan label "kesopanan" yang dibuat oleh pemberi komentar, tetapi tidak menyertakan id pengguna. Jigsaw memperluas kumpulan data ini dengan menambahkan label tambahan untuk toksisitas, penyebutan identitas, serta serangan terselubung. Kumpulan data ini adalah replika persis dari data yang dirilis untuk Jigsaw Unintended Bias in Toxicity Classification Kaggle challenge. Kumpulan data ini dirilis di bawah CC0, seperti teks komentar yang mendasarinya.

Untuk komentar yang memiliki parent_id juga di data komentar sipil, teks komentar sebelumnya disediakan sebagai fitur "parent_text". Perhatikan bahwa pemisahan dilakukan tanpa memperhatikan informasi ini, jadi menggunakan komentar sebelumnya dapat membocorkan beberapa informasi. Anotator tidak memiliki akses ke teks induk saat membuat label.

Beranda : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
Kode sumber : tfds.text.CivilComments
Versi :
- 1.0.0 : Rilis penuh awal.
- 1.0.1 : Menambahkan id unik untuk setiap komentar.
- 1.1.0 : Menambahkan konfigurasi CivilCommentsCovert.
- 1.1.1 : Menambahkan konfigurasi CivilCommentsCovert dengan checksum yang benar.
- 1.1.2 : Menambahkan kutipan terpisah untuk kumpulan data CivilCommentsCovert.
- 1.1.3 : Memperbaiki tipe id dari float ke string.
- 1.2.0 : Menambahkan fitur teks span, konteks, dan komentar induk yang beracun.
- 1.2.1 : Perbaiki pemformatan yang salah dalam pemisahan konteks.
- 1.2.2 : Perbarui untuk mencerminkan konteks yang hanya memiliki pemisahan kereta.
- 1.2.3 : Tambahkan peringatan ke CivilCommentsCovert saat kami memperbaiki masalah data.
- 1.2.4 (default): Tambahkan ID publikasi dan stempel waktu komentar.
Ukuran unduhan : 427.41 MiB
Gambar ( tfds.show_examples ): Tidak didukung.

civil_comments/CivilComments (konfigurasi default)

Deskripsi konfigurasi : CivilComments yang diatur di sini mencakup semua data, tetapi hanya tujuh label dasar (toksisitas, toksisitas_berat, cabul, ancaman, penghinaan, serangan_identitas, dan seksual_eksplisit).
Ukuran dataset : 1.54 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'test'`	97.320
`'train'`	1.804.874
`'validation'`	97.320

Struktur fitur :

FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
article_id	Tensor	int32
tanggal_dibuat	Tensor	rangkaian
pengenal	Tensor	rangkaian
identity_attack	Tensor	float32
menyinggung	Tensor	float32
cabul	Tensor	float32
identitas orang tua	Tensor	int32
parent_text	Teks	rangkaian
publikasi_id	Tensor	rangkaian
parah_toksisitas	Tensor	float32
seksual_eksplisit	Tensor	float32
teks	Teks	rangkaian
ancaman	Tensor	float32
toksisitas	Tensor	float32

Kunci yang diawasi (Lihat as_supervised doc ): ('text', 'toxicity')
Contoh ( tfds.as_dataframe ):

Kutipan :

@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsIdentities

Deskripsi konfigurasi : CivilCommentsIdentities yang diatur di sini menyertakan serangkaian label identitas tambahan selain tujuh label dasar. Namun, ini hanya mencakup sebagian (kira-kira seperempat) data dengan semua fitur ini.
Ukuran dataset : 654.97 MiB
Di-cache otomatis ( dokumentasi ): Tidak
Perpecahan :

Membelah	Contoh
`'test'`	21.577
`'train'`	405.130
`'validation'`	21.293

Struktur fitur :

FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
article_id	Tensor	int32
Asia	Tensor	float32
ateis	Tensor	float32
biseksual	Tensor	float32
hitam	Tensor	float32
Buddhis	Tensor	float32
Kristen	Tensor	float32
tanggal_dibuat	Tensor	rangkaian
perempuan	Tensor	float32
heteroseks	Tensor	float32
Hindu	Tensor	float32
homoseksual_gay_or_lesbian	Tensor	float32
pengenal	Tensor	rangkaian
identity_attack	Tensor	float32
menyinggung	Tensor	float32
intelektual_atau_ketidakmampuan_belajar	Tensor	float32
Yahudi	Tensor	float32
latin	Tensor	float32
pria	Tensor	float32
Muslim	Tensor	float32
cabul	Tensor	float32
other_disability	Tensor	float32
other_gender	Tensor	float32
other_race_or_ethnicity	Tensor	float32
agama_lain	Tensor	float32
other_sexual_orientation	Tensor	float32
identitas orang tua	Tensor	int32
parent_text	Teks	rangkaian
cacat fisik	Tensor	float32
psikiatri_atau_mental_penyakit	Tensor	float32
publikasi_id	Tensor	rangkaian
parah_toksisitas	Tensor	float32
seksual_eksplisit	Tensor	float32
teks	Teks	rangkaian
ancaman	Tensor	float32
toksisitas	Tensor	float32
transgender	Tensor	float32
putih	Tensor	float32

Kunci yang diawasi (Lihat as_supervised doc ): ('text', 'toxicity')
Contoh ( tfds.as_dataframe ):

Kutipan :

@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsCovert

Deskripsi konfigurasi : PERINGATAN: ada potensi masalah kualitas data dengan CivilCommentsCovert yang sedang kami perbaiki secara aktif (28/06/22); data yang mendasarinya dapat berubah!

Set CivilCommentsCovert adalah subset dari CivilCommentsIdentities dengan ~20% dari train dan test split yang dianotasi lebih lanjut untuk serangan terselubung, selain label toksisitas dan identitas. Penilai diminta untuk mengkategorikan komentar sebagai salah satu komentar yang secara eksplisit, implisit, tidak, atau tidak yakin apakah menyinggung, serta apakah itu berisi berbagai jenis serangan terselubung. Prosedur anotasi lengkap dirinci dalam makalah yang akan datang di https://sites.google.com/corp/view/hciandnlp/accepted-papers

Ukuran dataset : 97.83 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'test'`	2.455
`'train'`	48.074

Struktur fitur :

FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
article_id	Tensor	int32
Asia	Tensor	float32
ateis	Tensor	float32
biseksual	Tensor	float32
hitam	Tensor	float32
Buddhis	Tensor	float32
Kristen	Tensor	float32
covert_emoticons_emojis	Tensor	float32
rahasia_humor	Tensor	float32
covert_masked_harm	Tensor	float32
terselubung_microaggression	Tensor	float32
rahasia_kebingungan	Tensor	float32
rahasia_politik	Tensor	float32
sarkasme terselubung	Tensor	float32
tanggal_dibuat	Tensor	rangkaian
eksplisit_ofensif	Tensor	float32
perempuan	Tensor	float32
heteroseks	Tensor	float32
Hindu	Tensor	float32
homoseksual_gay_or_lesbian	Tensor	float32
pengenal	Tensor	rangkaian
identity_attack	Tensor	float32
secara implisit_ofensif	Tensor	float32
menyinggung	Tensor	float32
intelektual_atau_ketidakmampuan_belajar	Tensor	float32
Yahudi	Tensor	float32
latin	Tensor	float32
pria	Tensor	float32
Muslim	Tensor	float32
not_ofensif	Tensor	float32
not_sure_offensive	Tensor	float32
cabul	Tensor	float32
other_disability	Tensor	float32
other_gender	Tensor	float32
other_race_or_ethnicity	Tensor	float32
agama_lain	Tensor	float32
other_sexual_orientation	Tensor	float32
identitas orang tua	Tensor	int32
parent_text	Teks	rangkaian
cacat fisik	Tensor	float32
psikiatri_atau_mental_penyakit	Tensor	float32
publikasi_id	Tensor	rangkaian
parah_toksisitas	Tensor	float32
seksual_eksplisit	Tensor	float32
teks	Teks	rangkaian
ancaman	Tensor	float32
toksisitas	Tensor	float32
transgender	Tensor	float32
putih	Tensor	float32

Kunci yang diawasi (Lihat as_supervised doc ): ('text', 'toxicity')
Contoh ( tfds.as_dataframe ):

Kutipan :

@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

civil_comments/CivilCommentsToxicSpans

Deskripsi konfigurasi : CivilComments Toxic Spans adalah bagian dari CivilComments yang diberi label pada tingkat span - indeks semua batas karakter (unicode codepoints) yang ditandai sebagai toxic oleh sebagian besar anotator dikembalikan dalam fitur 'spans'.
Ukuran dataset : 5.81 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'test'`	2.000
`'train'`	7.939
`'validation'`	682

Struktur fitur :

FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
article_id	Tensor		int32
tanggal_dibuat	Tensor		rangkaian
pengenal	Tensor		rangkaian
identitas orang tua	Tensor		int32
parent_text	Teks		rangkaian
publikasi_id	Tensor		rangkaian
rentang	Tensor	(Tidak ada,)	int32
teks	Teks		rangkaian

Kunci yang diawasi (Lihat as_supervised doc ): ('text', 'spans')
Contoh ( tfds.as_dataframe ):

Kutipan :

@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

civil_comments/CivilCommentsInContext

Deskripsi konfigurasi : CivilComments in Context adalah bagian dari CivilComments yang diberi label dengan menyediakan parent_text kepada pemberi label. Ini termasuk fitur contextual_toxicity.
Ukuran dataset : 9.63 MiB
Di-cache otomatis ( dokumentasi ): Ya
Perpecahan :

Membelah	Contoh
`'train'`	9.969

Struktur fitur :

FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
article_id	Tensor	int32
kontekstual_toksisitas	Tensor	float32
tanggal_dibuat	Tensor	rangkaian
pengenal	Tensor	rangkaian
identity_attack	Tensor	float32
menyinggung	Tensor	float32
cabul	Tensor	float32
identitas orang tua	Tensor	int32
parent_text	Teks	rangkaian
publikasi_id	Tensor	rangkaian
parah_toksisitas	Tensor	float32
seksual_eksplisit	Tensor	float32
teks	Teks	rangkaian
ancaman	Tensor	float32
toksisitas	Tensor	float32

Kunci yang diawasi (Lihat as_supervised doc ): ('text', 'toxicity')
Contoh ( tfds.as_dataframe ):

Kutipan :

@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}