wikipedia_toxicity_subtypes

  • विवरण :

इस डेटासेट में टिप्पणियाँ विकिपीडिया टॉक पेज टिप्पणियों के संग्रह से आती हैं। इन्हें आरा द्वारा विषाक्तता के साथ-साथ (मुख्य विन्यास के लिए) विभिन्न प्रकार के विषाक्तता उपप्रकारों के लिए एनोटेट किया गया है, जिसमें गंभीर विषाक्तता, अश्लीलता, धमकी देने वाली भाषा, अपमानजनक भाषा और पहचान के हमले शामिल हैं। यह डेटासेट कागल पर आरा विषाक्त टिप्पणी वर्गीकरण चुनौती और आरा बहुभाषी विषाक्त टिप्पणी वर्गीकरण प्रतियोगिता के लिए जारी किए गए डेटा की प्रतिकृति है, जिसमें परीक्षण डेटासेट को प्रतियोगिताओं के अंत के बाद जारी किए गए test_labels के साथ विलय कर दिया गया है। स्कोरिंग के लिए उपयोग नहीं किए गए टेस्ट डेटा को हटा दिया गया है। यह डेटासेट CC0 के तहत जारी किया गया है, जैसा कि अंतर्निहित टिप्पणी पाठ है।

  • स्रोत कोड : tfds.text.WikipediaToxicitySubtypes

  • संस्करण :

    • 0.2.0 : सिविलकॉमेंट्स डेटासेट के साथ स्थिरता के लिए अपडेट की गई विशेषताएं।
    • 0.3.0 : विकिपीडिया टॉक्सिसिटी मल्टीलिंगुअल कॉन्फ़िगरेशन जोड़ा गया।
    • 0.3.1 (डिफ़ॉल्ट): प्रत्येक टिप्पणी के लिए एक अद्वितीय आईडी जोड़ा गया। (बहुभाषी कॉन्फ़िगरेशन के लिए, ये प्रत्येक विभाजन के भीतर केवल अद्वितीय हैं।)
  • डाउनलोड आकार : 50.57 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • पर्यवेक्षित कुंजी ( as_supervised doc देखें): ('text', 'toxicity')

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उद्धरण :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSubtypes (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फिग विवरण : विकिपीडियाटॉक्सिसिटी सबटाइप्स कॉन्फिगरेशन में टिप्पणियाँ अंग्रेजी विकिपीडिया टॉक पेज टिप्पणियों के एक संग्रह से हैं, जिन्हें विषाक्तता के लिए आरा द्वारा एनोटेट किया गया है, साथ ही पाँच विषाक्तता उपप्रकार लेबल (गंभीर विषाक्तता, अश्लील, धमकी, अपमान, पहचान_आक्रमण)। विषाक्तता और विषाक्तता उपप्रकार लेबल बाइनरी मान (0 या 1) हैं जो यह दर्शाता है कि क्या अधिकांश एनोटेटर्स ने उस विशेषता को टिप्पणी पाठ में निर्दिष्ट किया है। यह कॉन्फ़िगरेशन कागले पर आरा विषाक्त टिप्पणी वर्गीकरण चुनौती के लिए जारी किए गए डेटा की एक प्रतिकृति है, जिसमें परीक्षण डेटासेट प्रतियोगिता के बाद जारी किए गए test_labels के साथ जुड़ गया है, और परीक्षण डेटा का उपयोग स्कोरिंग के लिए नहीं किया गया है।

अधिक विवरण के लिए कागल दस्तावेज़ीकरण https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data या https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 देखें।

विभाजित करना उदाहरण
'test' 63,978
'train' 159,571
  • फ़ीचर संरचना :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
पहचान मूलपाठ डोरी
Identity_Attack टेन्सर फ्लोट32
अपमान करना टेन्सर फ्लोट32
भाषा: हिन्दी मूलपाठ डोरी
गंदा टेन्सर फ्लोट32
very_toxicity टेन्सर फ्लोट32
मूलपाठ मूलपाठ डोरी
धमकी टेन्सर फ्लोट32
विषाक्तता टेन्सर फ्लोट32

wikipedia_toxicity_subtypes/बहुभाषी

  • कॉन्फिग विवरण : यहां विकिपीडिया टॉक्सिसिटी मल्टीलिंगुअल कॉन्फिग में टिप्पणियां गैर-अंग्रेजी विकिपीडिया टॉक पेज टिप्पणियों के एक संग्रह से हैं, जो जिगसॉ द्वारा टॉक्सिसिटी के लिए एनोटेट की गई हैं, बाइनरी वैल्यू (0 या 1) के साथ यह दर्शाता है कि अधिकांश एनोटेटर्स ने टिप्पणी टेक्स्ट को टॉक्सिक के रूप में रेट किया है। इस कॉन्फ़िगरेशन में टिप्पणियां कई अलग-अलग भाषाओं (तुर्की, इतालवी, स्पेनिश, पुर्तगाली, रूसी और फ्रेंच) में हैं। यह कॉन्फ़िगरेशन कागल पर आरा बहुभाषी विषाक्त टिप्पणी वर्गीकरण के लिए जारी किए गए डेटा की एक प्रतिकृति है, जिसमें परीक्षण डेटासेट प्रतियोगिता के बाद जारी किए गए test_labels के साथ जुड़ा हुआ है।

अधिक विवरण के लिए कागल दस्तावेज़ देखें https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data

विभाजित करना उदाहरण
'test' 63,812
'validation' 8,000
  • फ़ीचर संरचना :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
पहचान मूलपाठ डोरी
भाषा: हिन्दी मूलपाठ डोरी
मूलपाठ मूलपाठ डोरी
विषाक्तता टेन्सर फ्लोट32