UnicodeDecode

सार्वजनिक अंतिम कक्षा यूनिकोडडेकोड

'इनपुट' में प्रत्येक स्ट्रिंग को यूनिकोड कोड बिंदुओं के अनुक्रम में डिकोड करता है।

सभी स्ट्रिंग्स के लिए वर्ण कोडपॉइंट एकल वेक्टर `char_values` का उपयोग करके लौटाए जाते हैं, जिसमें स्ट्रिंग्स को पंक्ति-प्रमुख क्रम में वर्णों तक विस्तारित किया जाता है।

`row_splits` टेंसर इंगित करता है कि प्रत्येक इनपुट स्ट्रिंग के लिए कोडपॉइंट `char_values` टेंसर के भीतर कहां शुरू और समाप्त होते हैं। विशेष रूप से, `i`वीं स्ट्रिंग (पंक्ति-प्रमुख क्रम में) के मान स्लाइस `[row_splits[i]:row_splits[i+1]]` में संग्रहीत होते हैं। इस प्रकार:

  • `char_values[row_splits[i]+j]` `i`वें स्ट्रिंग (पंक्ति-प्रमुख क्रम में) में `j`वें वर्ण के लिए यूनिकोड कोडपॉइंट है।
  • `row_splits[i+1] - row_splits[i]` `i`वीं स्ट्रिंग (पंक्ति-प्रमुख क्रम में) में वर्णों की संख्या है।

नेस्टेड क्लासेस

कक्षा यूनिकोडडिकोड.विकल्प UnicodeDecode के लिए वैकल्पिक विशेषताएँ

सार्वजनिक तरीके

आउटपुट <पूर्णांक>
चार मान ()
एक 1D int32 टेंसर जिसमें डिकोड किए गए कोडपॉइंट शामिल हैं।
स्थिर <टी संख्या बढ़ाता है> यूनिकोडडिकोड <टी>
बनाएं ( स्कोप स्कोप, ऑपरेंड <स्ट्रिंग> इनपुट, स्ट्रिंग इनपुट एन्कोडिंग, क्लास <टी> टीस्प्लिट्स, विकल्प... विकल्प)
एक नए यूनिकोडडेकोड ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।
स्थिर यूनिकोडडिकोड <लंबा>
बनाएं ( स्कोप स्कोप, ऑपरेंड <स्ट्रिंग> इनपुट, स्ट्रिंग इनपुट एन्कोडिंग, विकल्प... विकल्प)
डिफ़ॉल्ट आउटपुट प्रकारों का उपयोग करके एक नए यूनिकोडडेकोड ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।
स्थिर यूनिकोडडेकोड.विकल्प
त्रुटियाँ (स्ट्रिंग त्रुटियाँ)
स्थिर यूनिकोडडेकोड.विकल्प
रिप्लेसकंट्रोल कैरेक्टर्स (बूलियन रिप्लेसकंट्रोल कैरेक्टर्स)
स्थिर यूनिकोडडेकोड.विकल्प
रिप्लेसमेंटचार (लंबा रिप्लेसमेंटचार)
आउटपुट <T>
पंक्तिविभाजन ()
एक 1D int32 टेंसर जिसमें पंक्ति विभाजित होती है।

विरासत में मिली विधियाँ

सार्वजनिक तरीके

सार्वजनिक आउटपुट <पूर्णांक> charValues ​​()

एक 1D int32 टेंसर जिसमें डिकोड किए गए कोडपॉइंट शामिल हैं।

सार्वजनिक स्थैतिक यूनिकोडडिकोड <टी> बनाएं ( स्कोप स्कोप, ऑपरेंड <स्ट्रिंग> इनपुट, स्ट्रिंग इनपुट एन्कोडिंग, क्लास <टी> टीस्प्लिट्स, विकल्प... विकल्प)

एक नए यूनिकोडडेकोड ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।

पैरामीटर
दायरा वर्तमान दायरा
इनपुट डिकोड किया जाने वाला पाठ. कोई भी आकार हो सकता है. ध्यान दें कि आउटपुट को चार मानों के वेक्टर में समतल किया गया है।
इनपुट एन्कोडिंग इनपुट स्ट्रिंग्स का टेक्स्ट एन्कोडिंग। यह आईसीयू यूसीएनवी एल्गोरिथम कन्वर्टर्स द्वारा समर्थित एन्कोडिंग में से एक है। उदाहरण: `"UTF-16", "US ASCII", "UTF-8"`।
विकल्प वैकल्पिक गुण मान रखता है
रिटर्न
  • यूनिकोडडेकोड का एक नया उदाहरण

सार्वजनिक स्थैतिक यूनिकोडडिकोड <लॉन्ग> क्रिएट ( स्कोप स्कोप, ऑपरेंड <स्ट्रिंग> इनपुट, स्ट्रिंग इनपुट एन्कोडिंग, विकल्प... विकल्प)

डिफ़ॉल्ट आउटपुट प्रकारों का उपयोग करके एक नए यूनिकोडडेकोड ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।

पैरामीटर
दायरा वर्तमान दायरा
इनपुट डिकोड किया जाने वाला पाठ. कोई भी आकार हो सकता है. ध्यान दें कि आउटपुट को चार मानों के वेक्टर में समतल किया गया है।
इनपुट एन्कोडिंग इनपुट स्ट्रिंग्स का टेक्स्ट एन्कोडिंग। यह आईसीयू यूसीएनवी एल्गोरिथम कन्वर्टर्स द्वारा समर्थित एन्कोडिंग में से एक है। उदाहरण: `"UTF-16", "US ASCII", "UTF-8"`।
विकल्प वैकल्पिक गुण मान रखता है
रिटर्न
  • यूनिकोडडेकोड का एक नया उदाहरण

सार्वजनिक स्थैतिक UnicodeDecode.Options त्रुटियाँ (स्ट्रिंग त्रुटियाँ)

पैरामीटर
त्रुटियाँ इनपुट में अमान्य फ़ॉर्मेटिंग पाए जाने पर नीति प्रबंधन में त्रुटि। 'सख्त' का मान ऑपरेशन के कारण किसी भी अमान्य इनपुट फ़ॉर्मेटिंग पर InvalidArgument त्रुटि उत्पन्न करेगा। 'रिप्लेस' (डिफ़ॉल्ट) का मान ऑपरेशन को इनपुट में किसी भी अमान्य फ़ॉर्मेटिंग को 'रिप्लेसमेंट_चार' कोडपॉइंट से बदलने का कारण बनेगा। 'अनदेखा' का मान ऑपरेशन के कारण इनपुट में किसी भी अमान्य फ़ॉर्मेटिंग को छोड़ देगा और कोई संबंधित आउटपुट वर्ण उत्पन्न नहीं करेगा।

सार्वजनिक स्थैतिक यूनिकोडडेकोड.ऑप्शंस रिप्लेसकंट्रोलकैरेक्टर्स (बूलियन रिप्लेसकंट्रोलकैरेक्टर्स)

पैरामीटर
ReplaceControlCharacters C0 नियंत्रण वर्ण (00-1F) को `replacement_char` से बदलना है या नहीं। डिफ़ॉल्ट ग़लत है.

सार्वजनिक स्थैतिक UnicodeDecode.Options प्रतिस्थापनचार (लंबा प्रतिस्थापनचार)

पैरामीटर
प्रतिस्थापनचार `errors='replace'` होने पर इनपुट में किसी भी अमान्य फ़ॉर्मेटिंग के स्थान पर प्रतिस्थापन वर्ण कोडपॉइंट का उपयोग किया जाना चाहिए। किसी भी वैध यूनिकोड कोडपॉइंट का उपयोग किया जा सकता है। डिफ़ॉल्ट मान डिफ़ॉल्ट यूनिकोड प्रतिस्थापन वर्ण 0xFFFD या U+65533 है।)

सार्वजनिक आउटपुट <T> rowSplits ()

एक 1D int32 टेंसर जिसमें पंक्ति विभाजित होती है।