Questa pagina è stata tradotta dall'API Cloud Translation.
Switch to English

tensorflow :: ops :: UnicodeTranscode

#include <string_ops.h>

Transcodifica il testo di input da una codifica di origine a una codifica di destinazione.

Sommario

L'input è un tensore di stringa di qualsiasi forma. L'output è un tensore di stringa della stessa forma contenente le stringhe transcodificate. Le stringhe di output sono sempre Unicode valide. Se l'input contiene posizioni di codifica non valide, l'attributo errors imposta la politica su come gestirle. Se viene utilizzato il criterio di gestione degli errori predefinito, la formattazione non valida verrà sostituita nell'output da replacement_char . Se la politica degli errori è di ignore , tutte le posizioni di codifica non valide nell'input vengono ignore e non vengono incluse nell'output. Se è impostato su strict qualsiasi formattazione non valida provocherà un errore InvalidArgument.

Questa operazione può essere utilizzata con output_encoding = input_encoding per applicare la formattazione corretta per gli input anche se sono già nella codifica desiderata.

Se l'input è preceduto da un Byte Order Mark necessario per determinare la codifica (ad esempio, se la codifica è UTF-16 e la BOM indica big-endian), quella BOM verrà consumata e non emessa nell'output. Se la codifica di input è contrassegnata con un endianness esplicito (ad esempio UTF-16-BE), la distinta componenti viene interpretata come uno spazio unificatore e viene conservata nell'output (incluso sempre per UTF-8).

Il risultato finale è che se l'input è contrassegnato come endianness esplicito, la transcodifica è fedele a tutti i codepoint nella sorgente. Se non è contrassegnato con un'endianità esplicita, la distinta componenti non è considerata parte della stringa stessa ma come metadati e quindi non viene conservata nell'output.

Argomenti:

  • scope: un oggetto Scope
  • input: il testo da elaborare. Può avere qualsiasi forma.
  • input_encoding: codifica del testo delle stringhe di input. Questa è una qualsiasi delle codifiche supportate dai convertitori algoritmici ucnv di ICU. Esempi: "UTF-16", "US ASCII", "UTF-8" .
  • output_encoding: la codifica Unicode da utilizzare nell'output. Deve essere uno tra "UTF-8", "UTF-16-BE", "UTF-32-BE" . Le codifiche multibyte saranno big-endian.

Attributi opzionali (vedi Attrs ):

  • errori: criteri di gestione degli errori quando è stata rilevata una formattazione non valida nell'input. Il valore di "strict" farà sì che l'operazione produca un errore InvalidArgument su qualsiasi formattazione di input non valida. Un valore di "replace" (predefinito) farà sì che l'operazione sostituisca qualsiasi formattazione non valida nell'input con il punto di codice replacement_char . Un valore di "ignore" farà sì che l'operazione salti qualsiasi formattazione non valida nell'input e non produrrà alcun carattere di output corrispondente.
  • replacement_char: il codepoint del carattere sostitutivo da utilizzare al posto di qualsiasi formattazione non valida nell'input quando errors='replace' . È possibile utilizzare qualsiasi codepoint Unicode valido. Il valore predefinito è il carattere di sostituzione Unicode predefinito è 0xFFFD o U + 65533.)

Si noti che per UTF-8, il passaggio di un carattere di sostituzione esprimibile in 1 byte, come "", preserverà l'allineamento della stringa alla sorgente poiché i byte non validi verranno sostituiti con una sostituzione di 1 byte. Per UTF-16-BE e UTF-16-LE, qualsiasi carattere di sostituzione di 1 o 2 byte preserverà l'allineamento dei byte alla sorgente.

  • replace_control_characters: se sostituire i caratteri di controllo C0 (00-1F) con replacement_char . L'impostazione predefinita è false.

Ritorna:

  • Output : un tensore di stringa contenente testo Unicode codificato utilizzando output_encoding .

Costruttori e distruttori

UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding)
UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding, const UnicodeTranscode::Attrs & attrs)

Attributi pubblici

operation
output

Funzioni pubbliche

node () const
::tensorflow::Node *
operator::tensorflow::Input () const
operator::tensorflow::Output () const

Funzioni statiche pubbliche

Errors (StringPiece x)
ReplaceControlCharacters (bool x)
ReplacementChar (int64 x)

Structs

tensorflow :: ops :: UnicodeTranscode :: Attrs

Setter di attributi opzionali per UnicodeTranscode .

Attributi pubblici

operazione

Operation operation

produzione

::tensorflow::Output output

Funzioni pubbliche

UnicodeTranscode

 UnicodeTranscode(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input input,
  StringPiece input_encoding,
  StringPiece output_encoding
)

UnicodeTranscode

 UnicodeTranscode(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input input,
  StringPiece input_encoding,
  StringPiece output_encoding,
  const UnicodeTranscode::Attrs & attrs
)

nodo

::tensorflow::Node * node() const 

operatore :: :: tensorflow ingresso

 operator::tensorflow::Input() const 

operatore :: :: tensorflow uscita

 operator::tensorflow::Output() const 

Funzioni statiche pubbliche

Errori

Attrs Errors(
  StringPiece x
)

ReplaceControlCharacters

Attrs ReplaceControlCharacters(
  bool x
)

ReplacementChar

Attrs ReplacementChar(
  int64 x
)