UnicodeDecodeWithOffsets

सार्वजनिक अंतिम वर्ग UnicodeDecodeWithOffsets

'इनपुट' में प्रत्येक स्ट्रिंग को यूनिकोड कोड बिंदुओं के अनुक्रम में डिकोड करता है।

सभी स्ट्रिंग्स के लिए वर्ण कोडपॉइंट एकल वेक्टर `char_values` का उपयोग करके लौटाए जाते हैं, जिसमें स्ट्रिंग्स को पंक्ति-प्रमुख क्रम में वर्णों तक विस्तारित किया जाता है। इसी तरह, कैरेक्टर स्टार्ट बाइट ऑफसेट को एकल वेक्टर `char_to_byte_starts` का उपयोग करके लौटाया जाता है, जिसमें स्ट्रिंग को पंक्ति-प्रमुख क्रम में विस्तारित किया जाता है।

`row_splits` टेंसर इंगित करता है कि प्रत्येक इनपुट स्ट्रिंग के लिए कोडपॉइंट और स्टार्ट ऑफसेट `char_values` और `char_to_byte_starts` टेनसर के भीतर कहां शुरू और समाप्त होते हैं। विशेष रूप से, `i`वीं स्ट्रिंग (पंक्ति-प्रमुख क्रम में) के मान स्लाइस `[row_splits[i]:row_splits[i+1]]` में संग्रहीत होते हैं। इस प्रकार:

  • `char_values[row_splits[i]+j]` `i`वें स्ट्रिंग (पंक्ति-प्रमुख क्रम में) में `j`वें वर्ण के लिए यूनिकोड कोडपॉइंट है।
  • `char_to_bytes_starts[row_splits[i]+j]` `i`वें स्ट्रिंग (पंक्ति-प्रमुख क्रम में) में `j`वें वर्ण के लिए प्रारंभ बाइट ऑफसेट है।
  • `row_splits[i+1] - row_splits[i]` `i`वीं स्ट्रिंग (पंक्ति-प्रमुख क्रम में) में वर्णों की संख्या है।

नेस्टेड क्लासेस

कक्षा UnicodeDecodeWithOffsets.Options UnicodeDecodeWithOffsets के लिए वैकल्पिक विशेषताएँ

स्थिरांक

डोरी OP_NAME इस ऑप का नाम, जैसा कि TensorFlow कोर इंजन द्वारा जाना जाता है

सार्वजनिक तरीके

आउटपुट <TInt64>
charToByteStarts ()
एक 1D int32 टेंसर जिसमें इनपुट स्ट्रिंग में बाइट इंडेक्स होता है जहां `char_values` में प्रत्येक वर्ण शुरू होता है।
आउटपुट <TInt32>
चार मान ()
एक 1D int32 टेंसर जिसमें डिकोड किए गए कोडपॉइंट शामिल हैं।
स्थिर UnicodeDecodeWithOffsets < TInt64 >
बनाएं ( स्कोप स्कोप, ऑपरेंड < TString > इनपुट, स्ट्रिंग इनपुट एन्कोडिंग, विकल्प... विकल्प)
डिफ़ॉल्ट आउटपुट प्रकारों का उपयोग करके एक नए UnicodeDecodeWithOffsets ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।
स्थिर <T टीएनंबर का विस्तार करता है > UnicodeDecodeWithOffsets <T>
बनाएं ( स्कोप स्कोप, ऑपरेंड < TString > इनपुट, स्ट्रिंग इनपुट एन्कोडिंग, क्लास<T> Tsplits, विकल्प... विकल्प)
एक नए UnicodeDecodeWithOffsets ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।
स्थिर UnicodeDecodeWithOffsets.Options
त्रुटियाँ (स्ट्रिंग त्रुटियाँ)
स्थिर UnicodeDecodeWithOffsets.Options
रिप्लेसकंट्रोल कैरेक्टर्स (बूलियन रिप्लेसकंट्रोल कैरेक्टर्स)
स्थिर UnicodeDecodeWithOffsets.Options
रिप्लेसमेंटचार (लंबा रिप्लेसमेंटचार)
आउटपुट <T>
पंक्तिविभाजन ()
एक 1D int32 टेंसर जिसमें पंक्ति विभाजित होती है।

विरासत में मिली विधियाँ

स्थिरांक

सार्वजनिक स्थैतिक अंतिम स्ट्रिंग OP_NAME

इस ऑप का नाम, जैसा कि TensorFlow कोर इंजन द्वारा जाना जाता है

स्थिर मान: "यूनिकोडडेकोडविथऑफसेट्स"

सार्वजनिक तरीके

सार्वजनिक आउटपुट <TInt64> charToByteStarts ()

एक 1D int32 टेंसर जिसमें इनपुट स्ट्रिंग में बाइट इंडेक्स होता है जहां `char_values` में प्रत्येक वर्ण शुरू होता है।

सार्वजनिक आउटपुट <TInt32> charValues ​​()

एक 1D int32 टेंसर जिसमें डिकोड किए गए कोडपॉइंट शामिल हैं।

सार्वजनिक स्थैतिक UnicodeDecodeWithOffsets < TInt64 > बनाएं ( स्कोप स्कोप, ऑपरेंड < TString > इनपुट, स्ट्रिंग इनपुट एन्कोडिंग, विकल्प... विकल्प)

डिफ़ॉल्ट आउटपुट प्रकारों का उपयोग करके एक नए UnicodeDecodeWithOffsets ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।

पैरामीटर
दायरा वर्तमान दायरा
इनपुट डिकोड किया जाने वाला पाठ. कोई भी आकार हो सकता है. ध्यान दें कि आउटपुट को चार मानों के वेक्टर में समतल किया गया है।
इनपुट एन्कोडिंग इनपुट स्ट्रिंग्स का टेक्स्ट एन्कोडिंग। यह आईसीयू यूसीएनवी एल्गोरिथम कन्वर्टर्स द्वारा समर्थित एन्कोडिंग में से एक है। उदाहरण: `"UTF-16", "US ASCII", "UTF-8"`।
विकल्प वैकल्पिक गुण मान रखता है
रिटर्न
  • UnicodeDecodeWithOffsets का एक नया उदाहरण

सार्वजनिक स्थैतिक UnicodeDecodeWithOffsets <T> बनाएं ( स्कोप स्कोप, ऑपरेंड < TString > इनपुट, स्ट्रिंग इनपुट एन्कोडिंग, क्लास <T> Tsplits, विकल्प... विकल्प)

एक नए UnicodeDecodeWithOffsets ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।

पैरामीटर
दायरा वर्तमान दायरा
इनपुट डिकोड किया जाने वाला पाठ. कोई भी आकार हो सकता है. ध्यान दें कि आउटपुट को चार मानों के वेक्टर में समतल किया गया है।
इनपुट एन्कोडिंग इनपुट स्ट्रिंग्स का टेक्स्ट एन्कोडिंग। यह आईसीयू यूसीएनवी एल्गोरिथम कन्वर्टर्स द्वारा समर्थित एन्कोडिंग में से एक है। उदाहरण: `"UTF-16", "US ASCII", "UTF-8"`।
विकल्प वैकल्पिक गुण मान रखता है
रिटर्न
  • UnicodeDecodeWithOffsets का एक नया उदाहरण

सार्वजनिक स्थैतिक UnicodeDecodeWithOffsets.Options त्रुटियाँ (स्ट्रिंग त्रुटियाँ)

पैरामीटर
त्रुटियाँ इनपुट में अमान्य फ़ॉर्मेटिंग पाए जाने पर नीति प्रबंधन में त्रुटि। 'सख्त' का मान ऑपरेशन के कारण किसी भी अमान्य इनपुट फ़ॉर्मेटिंग पर InvalidArgument त्रुटि उत्पन्न करेगा। 'रिप्लेस' (डिफ़ॉल्ट) का मान ऑपरेशन को इनपुट में किसी भी अमान्य फ़ॉर्मेटिंग को 'रिप्लेसमेंट_चार' कोडपॉइंट से बदलने का कारण बनेगा। 'अनदेखा' का मान ऑपरेशन के कारण इनपुट में किसी भी अमान्य फ़ॉर्मेटिंग को छोड़ देगा और कोई संबंधित आउटपुट वर्ण उत्पन्न नहीं करेगा।

सार्वजनिक स्थैतिक UnicodeDecodeWithOffsets.Options रिप्लेसकंट्रोलकैरेक्टर्स (बूलियन रिप्लेसकंट्रोलकैरेक्टर्स)

पैरामीटर
ReplaceControlCharacters C0 नियंत्रण वर्ण (00-1F) को `replacement_char` से बदलना है या नहीं। डिफ़ॉल्ट ग़लत है.

सार्वजनिक स्थैतिक UnicodeDecodeWithOffsets.Options प्रतिस्थापनचार (लंबा प्रतिस्थापनचार)

पैरामीटर
प्रतिस्थापनचार `errors='replace'` होने पर इनपुट में किसी भी अमान्य फ़ॉर्मेटिंग के स्थान पर प्रतिस्थापन वर्ण कोडपॉइंट का उपयोग किया जाना चाहिए। किसी भी वैध यूनिकोड कोडपॉइंट का उपयोग किया जा सकता है। डिफ़ॉल्ट मान डिफ़ॉल्ट यूनिकोड प्रतिस्थापन वर्ण 0xFFFD या U+65533 है।)

सार्वजनिक आउटपुट <T> rowSplits ()

एक 1D int32 टेंसर जिसमें पंक्ति विभाजित होती है।