Google I/O एक लपेट है! TensorFlow सत्रों पर पकड़ बनाएं सत्र देखें

टेंसरफ़्लो :: ऑप्स :: यूनिकोडट्रांसकोड

#include <string_ops.h>

एक गंतव्य एन्कोडिंग के लिए एक स्रोत एन्कोडिंग से इनपुट पाठ ट्रांसकोड।

सारांश

इनपुट किसी भी आकार का एक स्ट्रिंग टेंसर है। आउटपुट ट्रांसकोडेड स्ट्रिंग्स वाले एक ही आकार का स्ट्रिंग टेंसर है। आउटपुट स्ट्रिंग्स हमेशा मान्य यूनिकोड होते हैं। यदि इनपुट में अमान्य एन्कोडिंग स्थितियाँ हैं, तो errors विशेषता उनके साथ व्यवहार करने के तरीके के लिए नीति निर्धारित करती है। यदि डिफ़ॉल्ट त्रुटि-हैंडलिंग नीति का उपयोग किया जाता है, तो replacement_char char द्वारा आउटपुट में अमान्य स्वरूपण प्रतिस्थापित किया जाएगा। यदि त्रुटियों की नीति को ignore , तो इनपुट में किसी भी अवैध एन्कोडिंग स्थिति को छोड़ दिया जाता है और आउटपुट में शामिल नहीं किया जाता है। यदि यह strict तो किसी भी अमान्य स्वरूपण के परिणामस्वरूप अमान्य अमान्य त्रुटि होगी।

इस ऑपरेशन का उपयोग output_encoding = input_encoding लिए किया जा सकता है। इनपुट के लिए सही स्वरूपण लागू करने के लिए output_encoding = input_encoding इनपुट के साथ भी अगर वे पहले से ही वांछित एन्कोडिंग में हैं।

यदि इनपुट को बाइट ऑर्डर मार्क द्वारा पूर्वनिर्मित किया जाता है तो एन्कोडिंग को निर्धारित करने के लिए आवश्यक है (जैसे यदि एन्कोडिंग यूटीएफ -16 है और बीओएम बड़े-एंडियन को इंगित करता है), तो उस बीओएम का उपभोग होगा और आउटपुट में उत्सर्जित नहीं किया जाएगा। यदि इनपुट एन्कोडिंग को एक स्पष्ट एंडियननेस (जैसे UTF-16-BE) के साथ चिह्नित किया जाता है, तो BOM को गैर-ब्रेकिंग-स्पेस के रूप में व्याख्या किया जाता है और आउटपुट में संरक्षित किया जाता है (हमेशा UTF-8 के लिए भी)।

अंतिम परिणाम यह है कि यदि इनपुट को स्पष्ट एंडियननेस के रूप में चिह्नित किया जाता है, तो ट्रांसकोडिंग स्रोत में सभी कोडपॉइंट्स के लिए वफादार है। यदि यह एक स्पष्ट धीरज के साथ चिह्नित नहीं है, तो बीओएम को केवल स्ट्रिंग का हिस्सा नहीं माना जाता है, लेकिन मेटाडेटा के रूप में, और इसलिए आउटपुट में संरक्षित नहीं किया जाता है।

तर्क:

  • गुंजाइश: एक स्कोप ऑब्जेक्ट
  • इनपुट: पाठ संसाधित किया जाना है। कोई भी आकार हो सकता है।
  • input_encoding: इनपुट स्ट्रिंग्स का टेक्स्ट एन्कोडिंग। यह ICU ucnv एल्गोरिदमिक कन्वर्टर्स द्वारा समर्थित एन्कोडिंग में से कोई भी है। उदाहरण: "UTF-16", "US ASCII", "UTF-8"
  • output_encoding: उत्पादन में उपयोग करने के लिए यूनिकोड एन्कोडिंग। "UTF-8", "UTF-16-BE", "UTF-32-BE" एक होना चाहिए। मल्टी-बाइट एनकोडिंग बड़ा-एंडियन होगा।

वैकल्पिक विशेषताएँ ( Attrs देखें):

  • त्रुटियाँ: इनपुट में पाए जाने वाले अमान्य स्वरूपण के समय नीति को संभालने में त्रुटि। 'सख्त' का मान किसी भी अमान्य इनपुट फ़ॉर्मेटिंग पर InvalidArgument त्रुटि उत्पन्न करने के लिए ऑपरेशन का कारण होगा। 'रिप्लेस' (डिफ़ॉल्ट) का एक मूल्य, replacement_char कोडपॉइंट के साथ इनपुट में किसी भी अवैध स्वरूपण को बदलने के लिए ऑपरेशन का कारण होगा। 'इग्नोर' के एक मूल्य के कारण ऑपरेशन में किसी भी अवैध फॉर्मेटिंग को छोड़ दिया जाएगा और कोई आउटपुट आउटपुट नहीं दिया जाएगा।
  • प्रतिस्थापन_चर: errors='replace' गलत errors='replace' होने पर इनपुट में किसी भी अमान्य स्वरूपण के स्थान पर उपयोग किए जाने वाला प्रतिस्थापन वर्ण कोडपॉइंट। किसी भी मान्य यूनिकोड कोडपॉइंट का उपयोग किया जा सकता है। डिफ़ॉल्ट मान डिफ़ॉल्ट यूनिकोड प्रतिस्थापन चरित्र है 0xFFFD या U + 65533।)

ध्यान दें कि UTF-8 के लिए, 1 बाइट में एक रिप्लेसमेंट कैरेक्टर, जैसे '' ', गुजर रहा है, सोर्स को स्ट्रिंग अलाइनमेंट को संरक्षित करेगा क्योंकि अमान्य बाइट्स को 1-बाइट रिप्लेसमेंट के साथ बदल दिया जाएगा। UTF-16-BE और UTF-16-LE के लिए, कोई भी 1 या 2 बाइट प्रतिस्थापन चरित्र स्रोत के लिए बाइट संरेखण को संरक्षित करेगा।

  • रिप्लेस_कंट्रोल_चेचर: replacement_char साथ C0 कंट्रोल कैरेक्टर (00-1F) को बदलना है या नहीं। डिफ़ॉल्ट गलत है।

रिटर्न:

  • Output : एक स्ट्रिंग टेंसर जिसमें यूनिकोड टेक्स्ट होता है, जिसमें output_encoding का उपयोग करके output_encoding

कंस्ट्रक्टर और डिस्ट्रक्टर्स

UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding)
UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding, const UnicodeTranscode::Attrs & attrs)

सार्वजनिक विशेषताएँ

operation
output

सार्वजनिक कार्य

node () const
::tensorflow::Node *
operator::tensorflow::Input () const
operator::tensorflow::Output () const

सार्वजनिक स्थैतिक कार्य

Errors (StringPiece x)
ReplaceControlCharacters (bool x)
ReplacementChar (int64 x)

संरचनाएं

टेंसरफ़्लो :: ऑप्स :: यूनिकोडट्रांसकोड :: एट्र्स

वैकल्पिक विशेषता यूनिकोडट्रांसकोड के लिए बसती है

सार्वजनिक विशेषताएँ

ऑपरेशन

Operation operation

उत्पादन

::tensorflow::Output output

सार्वजनिक कार्य

यूनिकोडट्रांसकोड

 UnicodeTranscode(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input input,
  StringPiece input_encoding,
  StringPiece output_encoding
)

यूनिकोडट्रांसकोड

 UnicodeTranscode(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input input,
  StringPiece input_encoding,
  StringPiece output_encoding,
  const UnicodeTranscode::Attrs & attrs
)

नोड

::tensorflow::Node * node() const 

ऑपरेटर :: टेंसरफ़्लो :: इनपुट

 operator::tensorflow::Input() const 
है

ऑपरेटर :: टेंसरफ़्लो :: आउटपुट

 operator::tensorflow::Output() const 

सार्वजनिक स्थैतिक कार्य

त्रुटियाँ

Attrs Errors(
  StringPiece x
)

प्रतिस्थापनकंट्रेक्टर

Attrs ReplaceControlCharacters(
  bool x
)

प्रतिस्थापन

Attrs ReplacementChar(
  int64 x
)