- विवरण :
इस डेटासेट में टिप्पणियाँ विकिपीडिया टॉक पेज टिप्पणियों के संग्रह से आती हैं। इन्हें आरा द्वारा विषाक्तता के साथ-साथ (मुख्य विन्यास के लिए) विभिन्न प्रकार के विषाक्तता उपप्रकारों के लिए एनोटेट किया गया है, जिसमें गंभीर विषाक्तता, अश्लीलता, धमकी देने वाली भाषा, अपमानजनक भाषा और पहचान के हमले शामिल हैं। यह डेटासेट कागल पर आरा विषाक्त टिप्पणी वर्गीकरण चुनौती और आरा बहुभाषी विषाक्त टिप्पणी वर्गीकरण प्रतियोगिता के लिए जारी किए गए डेटा की प्रतिकृति है, जिसमें परीक्षण डेटासेट को प्रतियोगिताओं के अंत के बाद जारी किए गए test_labels के साथ विलय कर दिया गया है। स्कोरिंग के लिए उपयोग नहीं किए गए टेस्ट डेटा को हटा दिया गया है। यह डेटासेट CC0 के तहत जारी किया गया है, जैसा कि अंतर्निहित टिप्पणी पाठ है।
स्रोत कोड :
tfds.text.WikipediaToxicitySubtypesसंस्करण :
-
0.2.0: सिविलकॉमेंट्स डेटासेट के साथ स्थिरता के लिए अपडेट की गई विशेषताएं। -
0.3.0: विकिपीडिया टॉक्सिसिटी मल्टीलिंगुअल कॉन्फ़िगरेशन जोड़ा गया। -
0.3.1(डिफ़ॉल्ट): प्रत्येक टिप्पणी के लिए एक अद्वितीय आईडी जोड़ा गया। (बहुभाषी कॉन्फ़िगरेशन के लिए, ये प्रत्येक विभाजन के भीतर केवल अद्वितीय हैं।)
-
डाउनलोड आकार :
50.57 MiBऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ
पर्यवेक्षित कुंजी (
as_superviseddoc देखें):('text', 'toxicity')चित्र ( tfds.show_examples ): समर्थित नहीं है।
उद्धरण :
@inproceedings{10.1145/3038912.3052591,
author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
title = {Ex Machina: Personal Attacks Seen at Scale},
year = {2017},
isbn = {9781450349130},
publisher = {International World Wide Web Conferences Steering Committee},
address = {Republic and Canton of Geneva, CHE},
url = {https://doi.org/10.1145/3038912.3052591},
doi = {10.1145/3038912.3052591},
booktitle = {Proceedings of the 26th International Conference on World Wide Web},
pages = {1391-1399},
numpages = {9},
keywords = {online discussions, wikipedia, online harassment},
location = {Perth, Australia},
series = {WWW '17}
}
wikipedia_toxicity_subtypes/EnglishSubtypes (डिफ़ॉल्ट कॉन्फ़िगरेशन)
- कॉन्फिग विवरण : विकिपीडियाटॉक्सिसिटी सबटाइप्स कॉन्फिगरेशन में टिप्पणियाँ अंग्रेजी विकिपीडिया टॉक पेज टिप्पणियों के एक संग्रह से हैं, जिन्हें विषाक्तता के लिए आरा द्वारा एनोटेट किया गया है, साथ ही पाँच विषाक्तता उपप्रकार लेबल (गंभीर विषाक्तता, अश्लील, धमकी, अपमान, पहचान_आक्रमण)। विषाक्तता और विषाक्तता उपप्रकार लेबल बाइनरी मान (0 या 1) हैं जो यह दर्शाता है कि क्या अधिकांश एनोटेटर्स ने उस विशेषता को टिप्पणी पाठ में निर्दिष्ट किया है। यह कॉन्फ़िगरेशन कागले पर आरा विषाक्त टिप्पणी वर्गीकरण चुनौती के लिए जारी किए गए डेटा की एक प्रतिकृति है, जिसमें परीक्षण डेटासेट प्रतियोगिता के बाद जारी किए गए test_labels के साथ जुड़ गया है, और परीक्षण डेटा का उपयोग स्कोरिंग के लिए नहीं किया गया है।
अधिक विवरण के लिए कागल दस्तावेज़ीकरण https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data या https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 देखें।
मुखपृष्ठ : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
डेटासेट का आकार :
128.32 MiBविभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 63,978 |
'train' | 159,571 |
- फ़ीचर संरचना :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'identity_attack': float32,
'insult': float32,
'language': Text(shape=(), dtype=string),
'obscene': float32,
'severe_toxicity': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| पहचान | मूलपाठ | डोरी | ||
| Identity_Attack | टेन्सर | फ्लोट32 | ||
| अपमान करना | टेन्सर | फ्लोट32 | ||
| भाषा: हिन्दी | मूलपाठ | डोरी | ||
| गंदा | टेन्सर | फ्लोट32 | ||
| very_toxicity | टेन्सर | फ्लोट32 | ||
| मूलपाठ | मूलपाठ | डोरी | ||
| धमकी | टेन्सर | फ्लोट32 | ||
| विषाक्तता | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):
wikipedia_toxicity_subtypes/बहुभाषी
- कॉन्फिग विवरण : यहां विकिपीडिया टॉक्सिसिटी मल्टीलिंगुअल कॉन्फिग में टिप्पणियां गैर-अंग्रेजी विकिपीडिया टॉक पेज टिप्पणियों के एक संग्रह से हैं, जो जिगसॉ द्वारा टॉक्सिसिटी के लिए एनोटेट की गई हैं, बाइनरी वैल्यू (0 या 1) के साथ यह दर्शाता है कि अधिकांश एनोटेटर्स ने टिप्पणी टेक्स्ट को टॉक्सिक के रूप में रेट किया है। इस कॉन्फ़िगरेशन में टिप्पणियां कई अलग-अलग भाषाओं (तुर्की, इतालवी, स्पेनिश, पुर्तगाली, रूसी और फ्रेंच) में हैं। यह कॉन्फ़िगरेशन कागल पर आरा बहुभाषी विषाक्त टिप्पणी वर्गीकरण के लिए जारी किए गए डेटा की एक प्रतिकृति है, जिसमें परीक्षण डेटासेट प्रतियोगिता के बाद जारी किए गए test_labels के साथ जुड़ा हुआ है।
अधिक विवरण के लिए कागल दस्तावेज़ देखें https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data ।
मुखपृष्ठ : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
डेटासेट का आकार :
35.13 MiBविभाजन :
| विभाजित करना | उदाहरण |
|---|---|
'test' | 63,812 |
'validation' | 8,000 |
- फ़ीचर संरचना :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'language': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'toxicity': float32,
})
- फ़ीचर दस्तावेज़ीकरण :
| विशेषता | कक्षा | आकार | डीटाइप | विवरण |
|---|---|---|---|---|
| विशेषताएं डिक्ट | ||||
| पहचान | मूलपाठ | डोरी | ||
| भाषा: हिन्दी | मूलपाठ | डोरी | ||
| मूलपाठ | मूलपाठ | डोरी | ||
| विषाक्तता | टेन्सर | फ्लोट32 |
- उदाहरण ( tfds.as_dataframe ):