एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

नागरिक_टिप्पणियां

  • विवरण:

CivilComments Dataset का यह संस्करण उन प्राथमिक सात लेबलों तक पहुंच प्रदान करता है जो भीड़ कार्यकर्ताओं द्वारा एनोटेट किए गए थे, विषाक्तता और अन्य टैग 0 और 1 के बीच के मान हैं जो टिप्पणी पाठ में इन विशेषताओं को निर्दिष्ट करने वाले एनोटेटर्स के अंश को दर्शाते हैं।

अन्य टैग केवल इनपुट उदाहरणों के एक अंश के लिए उपलब्ध हैं। उन्हें वर्तमान में मुख्य डेटासेट के लिए अनदेखा किया जाता है; CivilCommentsIdentities सेट में वे लेबल शामिल हैं, लेकिन केवल उनके साथ डेटा का सबसेट शामिल है। अन्य विशेषताएँ जो मूल CivilComments रिलीज़ का हिस्सा थीं, उन्हें केवल कच्चे डेटा में शामिल किया गया है। उपलब्ध सुविधाओं के बारे में अधिक जानकारी के लिए कागल दस्तावेज़ीकरण देखें।

इस डेटासेट में टिप्पणियाँ, स्वतंत्र समाचार साइटों के लिए एक टिप्पणी प्लगइन, नागरिक टिप्पणियाँ प्लेटफ़ॉर्म के संग्रह से आती हैं। ये सार्वजनिक टिप्पणियां 2015 - 2017 से बनाई गई थीं और दुनिया भर में लगभग 50 अंग्रेजी भाषा की समाचार साइटों पर दिखाई दीं। जब सिविल टिप्पणियाँ 2017 में बंद हो गईं, तो उन्होंने भविष्य के शोध को सक्षम करने के लिए सार्वजनिक टिप्पणियों को एक स्थायी खुले संग्रह में उपलब्ध कराने का विकल्प चुना। फिगशेयर पर प्रकाशित मूल डेटा में सार्वजनिक टिप्पणी पाठ, कुछ संबद्ध मेटाडेटा जैसे लेख आईडी, टाइमस्टैम्प और टिप्पणीकार-जनित "सभ्यता" लेबल शामिल हैं, लेकिन इसमें उपयोगकर्ता आईडी शामिल नहीं हैं। आरा ने विषाक्तता, पहचान के उल्लेखों के साथ-साथ गुप्त आक्रमण के लिए अतिरिक्त लेबल जोड़कर इस डेटासेट को बढ़ाया। यह डेटा सेट विषाक्तता वर्गीकरण कागल चुनौती में आरा अनपेक्षित पूर्वाग्रह के लिए जारी किए गए डेटा की सटीक प्रतिकृति है। यह डेटासेट CC0 के तहत जारी किया गया है, जैसा कि अंतर्निहित टिप्पणी पाठ है।

  • होमपेज: https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • स्रोत कोड: tfds.text.CivilComments

  • संस्करण:

    • 1.0.0 : प्रारंभिक पूर्ण रिलीज।
    • 1.0.1 : प्रत्येक टिप्पणी के लिए एक विशिष्ट आईडी जोड़ा गया।
    • 1.1.0 : जोड़ा गया CivilCommentsCovert config।
    • 1.1.1 : सही चेकसम के साथ जोड़ा गया CivilCommentsCovert config।
    • 1.1.2 : CivilCommentsCovert डेटासेट के लिए अलग प्रशस्ति पत्र जोड़ा गया।
    • 1.1.3 (डिफ़ॉल्ट) : नाव से स्ट्रिंग के लिए आईडी प्रकार सही किया।
  • डाउनलोड का आकार: 397.83 MiB

  • पर्यवेक्षित कुंजियों (देखें as_supervised डॉक ): ('text', 'toxicity')

  • चित्रा ( tfds.show_examples ): समर्थित नहीं।

Civil_comments/CivilComments (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िग विवरण: CivilComments यहां सेट सभी डेटा है, लेकिन केवल बुनियादी सात लेबल (विषाक्तता, severe_toxicity, अश्लील, धमकी, अपमान, identity_attack, और sexual_explicit) भी शामिल है।

  • डेटासेट का आकार: 964.77 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 97,320
'train' 1,804,874
'validation' 97,320
  • विशेषताएं:
FeaturesDict({
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • प्रशस्ति पत्र:
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/CivilCommentsIdentities

  • कॉन्फ़िग विवरण: CivilCommentsIdentities यहां सेट बुनियादी सात लेबल के अलावा पहचान लेबल की एक विस्तारित सेट शामिल है। हालांकि, इसमें इन सभी सुविधाओं के साथ डेटा का केवल सबसेट (लगभग एक चौथाई) शामिल है।

  • डेटासेट का आकार: 511.32 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' २१,५७७
'train' 405,130
'validation' २१,२९३
  • विशेषताएं:
FeaturesDict({
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • प्रशस्ति पत्र:
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments/CivilCommentsगुप्त

  • कॉन्फ़िग विवरण: CivilCommentsCovert सेट ट्रेन और परीक्षण विभाजन आगे विषाक्तता और पहचान लेबल के अलावा, गुप्त offensiveness लिए दिए गए व्याख्या की ~ 20% के साथ CivilCommentsIdentities के एक सबसेट है। रैटर्स को टिप्पणियों को स्पष्ट रूप से, परोक्ष रूप से, नहीं, या निश्चित रूप से आपत्तिजनक के रूप में वर्गीकृत करने के लिए कहा गया था, साथ ही इसमें विभिन्न प्रकार के गुप्त अपराध शामिल थे या नहीं। पूर्ण एनोटेशन प्रक्रिया पर एक आगामी कागज में विस्तृत है https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • डेटासेट का आकार: 79.74 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ

  • विभाजन:

विभाजित करना उदाहरण
'test' २,४५५
'train' 48,074
  • विशेषताएं:
FeaturesDict({
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'covert_emoticons_emojis': tf.float32,
    'covert_humor': tf.float32,
    'covert_masked_harm': tf.float32,
    'covert_microaggression': tf.float32,
    'covert_obfuscation': tf.float32,
    'covert_political': tf.float32,
    'covert_sarcasm': tf.float32,
    'explicitly_offensive': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'implicitly_offensive': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'not_offensive': tf.float32,
    'not_sure_offensive': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • प्रशस्ति पत्र:
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}