UnicodeTranscode

सार्वजनिक अंतिम वर्ग यूनिकोडट्रांसकोड

इनपुट टेक्स्ट को स्रोत एन्कोडिंग से गंतव्य एन्कोडिंग में ट्रांसकोड करें।

इनपुट किसी भी आकार का एक स्ट्रिंग टेंसर है। आउटपुट उसी आकार का एक स्ट्रिंग टेंसर है जिसमें ट्रांसकोडेड स्ट्रिंग्स होती हैं। आउटपुट स्ट्रिंग्स हमेशा वैध यूनिकोड होती हैं। यदि इनपुट में अमान्य एन्कोडिंग स्थितियाँ हैं, तो `त्रुटियाँ` विशेषता उनसे निपटने के लिए नीति निर्धारित करती है। यदि डिफ़ॉल्ट त्रुटि-हैंडलिंग नीति का उपयोग किया जाता है, तो आउटपुट में अमान्य स्वरूपण को `replacement_char` द्वारा प्रतिस्थापित किया जाएगा। यदि त्रुटियों की नीति 'अनदेखा' करने की है, तो इनपुट में किसी भी अमान्य एन्कोडिंग स्थिति को छोड़ दिया जाता है और आउटपुट में शामिल नहीं किया जाता है। यदि यह `सख्त` पर सेट है तो किसी भी अमान्य फ़ॉर्मेटिंग के परिणामस्वरूप InvalidArgument त्रुटि होगी।

इस ऑपरेशन का उपयोग इनपुट के लिए सही फ़ॉर्मेटिंग लागू करने के लिए `आउटपुट_एनकोडिंग = इनपुट_एनकोडिंग` के साथ किया जा सकता है, भले ही वे पहले से ही वांछित एन्कोडिंग में हों।

यदि एन्कोडिंग निर्धारित करने के लिए आवश्यक बाइट ऑर्डर मार्क द्वारा इनपुट उपसर्ग किया गया है (उदाहरण के लिए यदि एन्कोडिंग यूटीएफ -16 है और बीओएम बड़े-एंडियन को इंगित करता है), तो उस बीओएम का उपभोग किया जाएगा और आउटपुट में उत्सर्जित नहीं किया जाएगा। यदि इनपुट एन्कोडिंग को स्पष्ट एंडियननेस (जैसे यूटीएफ-16-बीई) के साथ चिह्नित किया गया है, तो बीओएम को नॉन-ब्रेकिंग-स्पेस के रूप में व्याख्या किया जाता है और आउटपुट में संरक्षित किया जाता है (हमेशा यूटीएफ-8 सहित)।

अंतिम परिणाम यह है कि यदि इनपुट को स्पष्ट एंडियननेस के रूप में चिह्नित किया गया है तो ट्रांसकोडिंग स्रोत के सभी कोडपॉइंट के लिए वफादार है। यदि इसे स्पष्ट एंडियननेस के साथ चिह्नित नहीं किया गया है, तो बीओएम को स्ट्रिंग का हिस्सा नहीं बल्कि मेटाडेटा के रूप में माना जाता है, और इसलिए इसे आउटपुट में संरक्षित नहीं किया जाता है।

उदाहरण:

>>> tf.strings.unicode_transcode(["Hello", "TensorFlow", "2.x"], "UTF-8", "UTF-16-BE") >>> tf.strings.unicode_transcode(["A", "B", "C"], "US ASCII", "UTF-8").numpy() array([b'A', b'B' , b'C'], dtype=ऑब्जेक्ट)

नेस्टेड क्लासेस

कक्षा यूनिकोडट्रांसकोड.विकल्प UnicodeTranscode के लिए वैकल्पिक विशेषताएँ

स्थिरांक

डोरी OP_NAME इस ऑप का नाम, जैसा कि TensorFlow कोर इंजन द्वारा जाना जाता है

सार्वजनिक तरीके

आउटपुट < TString >
आउटपुट के रूप में ()
टेंसर का प्रतीकात्मक हैंडल लौटाता है।
स्थिर यूनिकोडट्रांसकोड
बनाएं ( स्कोप स्कोप, ऑपरेंड < TString > इनपुट, स्ट्रिंग इनपुट एन्कोडिंग, स्ट्रिंग आउटपुट एन्कोडिंग, विकल्प... विकल्प)
एक नए यूनिकोडट्रांसकोड ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।
स्थिर यूनिकोडट्रांसकोड.विकल्प
त्रुटियाँ (स्ट्रिंग त्रुटियाँ)
आउटपुट < TString >
आउटपुट ()
एक स्ट्रिंग टेंसर जिसमें यूनिकोड टेक्स्ट होता है जिसे `आउटपुट_एनकोडिंग` का उपयोग करके एन्कोड किया जाता है।
स्थिर यूनिकोडट्रांसकोड.विकल्प
रिप्लेसकंट्रोल कैरेक्टर्स (बूलियन रिप्लेसकंट्रोल कैरेक्टर्स)
स्थिर यूनिकोडट्रांसकोड.विकल्प
रिप्लेसमेंटचार (लंबा रिप्लेसमेंटचार)

विरासत में मिली विधियाँ

स्थिरांक

सार्वजनिक स्थैतिक अंतिम स्ट्रिंग OP_NAME

इस ऑप का नाम, जैसा कि TensorFlow कोर इंजन द्वारा जाना जाता है

स्थिर मान: "यूनिकोडट्रांसकोड"

सार्वजनिक तरीके

सार्वजनिक आउटपुट < TString > asOutput ()

टेंसर का प्रतीकात्मक हैंडल लौटाता है।

TensorFlow संचालन के इनपुट किसी अन्य TensorFlow ऑपरेशन के आउटपुट हैं। इस पद्धति का उपयोग एक प्रतीकात्मक हैंडल प्राप्त करने के लिए किया जाता है जो इनपुट की गणना का प्रतिनिधित्व करता है।

सार्वजनिक स्थैतिक यूनिकोडट्रांसकोड बनाएं ( स्कोप स्कोप, ऑपरेंड < TString > इनपुट, स्ट्रिंग इनपुट एन्कोडिंग, स्ट्रिंग आउटपुट एन्कोडिंग, विकल्प... विकल्प)

एक नए यूनिकोडट्रांसकोड ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।

पैरामीटर
दायरा वर्तमान दायरा
इनपुट संसाधित किया जाने वाला पाठ. कोई भी आकार हो सकता है.
इनपुट एन्कोडिंग इनपुट स्ट्रिंग्स का टेक्स्ट एन्कोडिंग। यह आईसीयू यूसीएनवी एल्गोरिथम कन्वर्टर्स द्वारा समर्थित एन्कोडिंग में से एक है। उदाहरण: `"UTF-16", "US ASCII", "UTF-8"`।
आउटपुट एन्कोडिंग आउटपुट में उपयोग करने के लिए यूनिकोड एन्कोडिंग। `"UTF-8", "UTF-16-BE", "UTF-32-BE"` में से एक होना चाहिए। मल्टी-बाइट एन्कोडिंग बड़े-एंडियन होंगे।
विकल्प वैकल्पिक गुण मान रखता है
रिटर्न
  • यूनिकोडट्रांसकोड का एक नया उदाहरण

सार्वजनिक स्थैतिक यूनिकोडट्रांसकोड.विकल्प त्रुटियाँ (स्ट्रिंग त्रुटियाँ)

पैरामीटर
त्रुटियाँ इनपुट में अमान्य फ़ॉर्मेटिंग पाए जाने पर नीति प्रबंधन में त्रुटि। 'सख्त' का मान ऑपरेशन के कारण किसी भी अमान्य इनपुट फ़ॉर्मेटिंग पर InvalidArgument त्रुटि उत्पन्न करेगा। 'रिप्लेस' (डिफ़ॉल्ट) का मान ऑपरेशन को इनपुट में किसी भी अमान्य फ़ॉर्मेटिंग को 'रिप्लेसमेंट_चार' कोडपॉइंट से बदलने का कारण बनेगा। 'अनदेखा' का मान ऑपरेशन के कारण इनपुट में किसी भी अमान्य फ़ॉर्मेटिंग को छोड़ देगा और कोई संबंधित आउटपुट वर्ण उत्पन्न नहीं करेगा।

सार्वजनिक आउटपुट < TString > आउटपुट ()

एक स्ट्रिंग टेंसर जिसमें यूनिकोड टेक्स्ट होता है जिसे `आउटपुट_एनकोडिंग` का उपयोग करके एन्कोड किया जाता है।

सार्वजनिक स्थैतिक यूनिकोडट्रांसकोड.ऑप्शंस रिप्लेसकंट्रोलकैरेक्टर्स (बूलियन रिप्लेसकंट्रोलकैरेक्टर्स)

पैरामीटर
ReplaceControlCharacters C0 नियंत्रण वर्ण (00-1F) को `replacement_char` से बदलना है या नहीं। डिफ़ॉल्ट ग़लत है.

सार्वजनिक स्थैतिक यूनिकोडट्रांसकोड.ऑप्शंस रिप्लेसमेंटचार (लंबा रिप्लेसमेंटचार)

पैरामीटर
प्रतिस्थापनचार `errors='replace'` होने पर इनपुट में किसी भी अमान्य फ़ॉर्मेटिंग के स्थान पर प्रतिस्थापन वर्ण कोडपॉइंट का उपयोग किया जाना चाहिए। किसी भी वैध यूनिकोड कोडपॉइंट का उपयोग किया जा सकता है। डिफ़ॉल्ट मान डिफ़ॉल्ट यूनिकोड प्रतिस्थापन वर्ण 0xFFFD या U+65533 है।)

ध्यान दें कि UTF-8 के लिए, 1 बाइट में व्यक्त होने वाले प्रतिस्थापन वर्ण, जैसे '', को पास करने से स्रोत के साथ स्ट्रिंग संरेखण सुरक्षित रहेगा क्योंकि अमान्य बाइट्स को 1-बाइट प्रतिस्थापन के साथ बदल दिया जाएगा। UTF-16-BE और UTF-16-LE के लिए, कोई भी 1 या 2 बाइट प्रतिस्थापन वर्ण स्रोत के साथ बाइट संरेखण को सुरक्षित रखेगा।