wikipedia_toxicity_subtypes

विवरण :

इस डेटासेट में टिप्पणियाँ विकिपीडिया टॉक पेज टिप्पणियों के संग्रह से आती हैं। इन्हें आरा द्वारा विषाक्तता के साथ-साथ (मुख्य विन्यास के लिए) विभिन्न प्रकार के विषाक्तता उपप्रकारों के लिए एनोटेट किया गया है, जिसमें गंभीर विषाक्तता, अश्लीलता, धमकी देने वाली भाषा, अपमानजनक भाषा और पहचान के हमले शामिल हैं। यह डेटासेट कागल पर आरा विषाक्त टिप्पणी वर्गीकरण चुनौती और आरा बहुभाषी विषाक्त टिप्पणी वर्गीकरण प्रतियोगिता के लिए जारी किए गए डेटा की प्रतिकृति है, जिसमें परीक्षण डेटासेट को प्रतियोगिताओं के अंत के बाद जारी किए गए test_labels के साथ विलय कर दिया गया है। स्कोरिंग के लिए उपयोग नहीं किए गए टेस्ट डेटा को हटा दिया गया है। यह डेटासेट CC0 के तहत जारी किया गया है, जैसा कि अंतर्निहित टिप्पणी पाठ है।

स्रोत कोड : tfds.text.WikipediaToxicitySubtypes
संस्करण :
- 0.2.0 : सिविलकॉमेंट्स डेटासेट के साथ स्थिरता के लिए अपडेट की गई विशेषताएं।
- 0.3.0 : विकिपीडिया टॉक्सिसिटी मल्टीलिंगुअल कॉन्फ़िगरेशन जोड़ा गया।
- 0.3.1 (डिफ़ॉल्ट): प्रत्येक टिप्पणी के लिए एक अद्वितीय आईडी जोड़ा गया। (बहुभाषी कॉन्फ़िगरेशन के लिए, ये प्रत्येक विभाजन के भीतर केवल अद्वितीय हैं।)
डाउनलोड आकार : 50.57 MiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
पर्यवेक्षित कुंजी ( as_supervised doc देखें): ('text', 'toxicity')
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSubtypes (डिफ़ॉल्ट कॉन्फ़िगरेशन)

कॉन्फिग विवरण : विकिपीडियाटॉक्सिसिटी सबटाइप्स कॉन्फिगरेशन में टिप्पणियाँ अंग्रेजी विकिपीडिया टॉक पेज टिप्पणियों के एक संग्रह से हैं, जिन्हें विषाक्तता के लिए आरा द्वारा एनोटेट किया गया है, साथ ही पाँच विषाक्तता उपप्रकार लेबल (गंभीर विषाक्तता, अश्लील, धमकी, अपमान, पहचान_आक्रमण)। विषाक्तता और विषाक्तता उपप्रकार लेबल बाइनरी मान (0 या 1) हैं जो यह दर्शाता है कि क्या अधिकांश एनोटेटर्स ने उस विशेषता को टिप्पणी पाठ में निर्दिष्ट किया है। यह कॉन्फ़िगरेशन कागले पर आरा विषाक्त टिप्पणी वर्गीकरण चुनौती के लिए जारी किए गए डेटा की एक प्रतिकृति है, जिसमें परीक्षण डेटासेट प्रतियोगिता के बाद जारी किए गए test_labels के साथ जुड़ गया है, और परीक्षण डेटा का उपयोग स्कोरिंग के लिए नहीं किया गया है।

अधिक विवरण के लिए कागल दस्तावेज़ीकरण https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data या https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 देखें।

मुखपृष्ठ : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
डेटासेट का आकार : 128.32 MiB
विभाजन :

विभाजित करना	उदाहरण
`'test'`	63,978
`'train'`	159,571

फ़ीचर संरचना :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
पहचान	मूलपाठ	डोरी
Identity_Attack	टेन्सर	फ्लोट32
अपमान करना	टेन्सर	फ्लोट32
भाषा: हिन्दी	मूलपाठ	डोरी
गंदा	टेन्सर	फ्लोट32
very_toxicity	टेन्सर	फ्लोट32
मूलपाठ	मूलपाठ	डोरी
धमकी	टेन्सर	फ्लोट32
विषाक्तता	टेन्सर	फ्लोट32

उदाहरण ( tfds.as_dataframe ):

wikipedia_toxicity_subtypes/बहुभाषी

कॉन्फिग विवरण : यहां विकिपीडिया टॉक्सिसिटी मल्टीलिंगुअल कॉन्फिग में टिप्पणियां गैर-अंग्रेजी विकिपीडिया टॉक पेज टिप्पणियों के एक संग्रह से हैं, जो जिगसॉ द्वारा टॉक्सिसिटी के लिए एनोटेट की गई हैं, बाइनरी वैल्यू (0 या 1) के साथ यह दर्शाता है कि अधिकांश एनोटेटर्स ने टिप्पणी टेक्स्ट को टॉक्सिक के रूप में रेट किया है। इस कॉन्फ़िगरेशन में टिप्पणियां कई अलग-अलग भाषाओं (तुर्की, इतालवी, स्पेनिश, पुर्तगाली, रूसी और फ्रेंच) में हैं। यह कॉन्फ़िगरेशन कागल पर आरा बहुभाषी विषाक्त टिप्पणी वर्गीकरण के लिए जारी किए गए डेटा की एक प्रतिकृति है, जिसमें परीक्षण डेटासेट प्रतियोगिता के बाद जारी किए गए test_labels के साथ जुड़ा हुआ है।

अधिक विवरण के लिए कागल दस्तावेज़ देखें https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data ।

मुखपृष्ठ : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
डेटासेट का आकार : 35.13 MiB
विभाजन :

विभाजित करना	उदाहरण
`'test'`	63,812
`'validation'`	8,000

फ़ीचर संरचना :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
पहचान	मूलपाठ	डोरी
भाषा: हिन्दी	मूलपाठ	डोरी
मूलपाठ	मूलपाठ	डोरी
विषाक्तता	टेन्सर	फ्लोट32

उदाहरण ( tfds.as_dataframe ):