UnicodeTranscode

classe finale pubblica UnicodeTranscode

Transcodifica il testo di input da una codifica di origine a una codifica di destinazione.

L'input è un tensore di stringa di qualsiasi forma. L'output è un tensore di stringa della stessa forma contenente le stringhe transcodificate. Le stringhe di output sono sempre Unicode valide. Se l'input contiene posizioni di codifica non valide, l'attributo "errors" imposta la politica su come gestirle. Se viene utilizzata la politica di gestione degli errori predefinita, la formattazione non valida verrà sostituita nell'output da "replacement_char". Se la politica degli errori è "ignora", qualsiasi posizione di codifica non valida nell'input viene ignorata e non inclusa nell'output. Se impostato su "strict", qualsiasi formattazione non valida risulterà in un errore InvalidArgument.

Questa operazione può essere utilizzata con `output_encoding = input_encoding` per imporre la formattazione corretta per gli input anche se sono già nella codifica desiderata.

Se l'input è preceduto da un Byte Order Mark necessario per determinare la codifica (ad esempio se la codifica è UTF-16 e la BOM indica big-endian), allora quella BOM verrà consumata e non emessa nell'output. Se la codifica dell'input è contrassegnata con un endianness esplicito (ad esempio UTF-16-BE), allora il BOM viene interpretato come uno spazio unificatore e viene conservato nell'output (incluso sempre per UTF-8).

Il risultato finale è che se l'input è contrassegnato come endianness esplicito, la transcodifica è fedele a tutti i punti di codice nell'origine. Se non è contrassegnata con un endianness esplicito, la BOM non è considerata parte della stringa stessa ma come metadati, e quindi non viene conservata nell'output.

Esempi:

>>> tf.strings.unicode_transcode(["Ciao", "TensorFlow", "2.x"], "UTF-8", "UTF-16-BE") >>> tf.strings.unicode_transcode(["A", "B", "C"], "US ASCII", "UTF-8").numpy() array([b'A', b'B' , b'C'], dtipo=oggetto)

Classi nidificate

classe UnicodeTranscode.Options Attributi facoltativi per UnicodeTranscode

Costanti

Corda OP_NAME Il nome di questa operazione, come noto al motore principale di TensorFlow

Metodi pubblici

Uscita < TString >
comeuscita ()
Restituisce l'handle simbolico del tensore.
UnicodeTranscode statico
create ( Scope scope, Operando < TString > input, String inputEncoding, String outputEncoding, Opzioni... opzioni)
Metodo factory per creare una classe che racchiude una nuova operazione UnicodeTranscode.
UnicodeTranscode.Options statico
errori (Errori di stringa)
Uscita < TString >
produzione ()
Un tensore di stringa contenente testo Unicode codificato utilizzando "output_encoding".
UnicodeTranscode.Options statico
replaceControlCharacters (sostituzione booleana di caratteri di controllo)
UnicodeTranscode.Options statico
sostituzioneChar (sostituzione lungaChar)

Metodi ereditati

Costanti

Stringa finale statica pubblica OP_NAME

Il nome di questa operazione, come noto al motore principale di TensorFlow

Valore costante: "UnicodeTranscode"

Metodi pubblici

Output pubblico < TString > asOutput ()

Restituisce l'handle simbolico del tensore.

Gli input per le operazioni TensorFlow sono output di un'altra operazione TensorFlow. Questo metodo viene utilizzato per ottenere un handle simbolico che rappresenta il calcolo dell'input.

creazione pubblica statica UnicodeTranscode (ambito ambito , operando < TString > input, stringa inputEncoding, stringa outputEncoding, Opzioni... opzioni)

Metodo factory per creare una classe che racchiude una nuova operazione UnicodeTranscode.

Parametri
scopo ambito attuale
ingresso Il testo da elaborare. Può avere qualsiasi forma.
inputEncoding Codifica del testo delle stringhe di input. Questa è una qualsiasi delle codifiche supportate dai convertitori algoritmici ICU ucnv. Esempi: `"UTF-16", "US ASCII", "UTF-8"`.
outputEncoding La codifica Unicode da utilizzare nell'output. Deve essere uno tra "UTF-8", "UTF-16-BE", "UTF-32-BE"`. Le codifiche multibyte saranno big-endian.
opzioni trasporta valori di attributi opzionali
ritorna
  • una nuova istanza di UnicodeTranscode

errori pubblici statici UnicodeTranscode.Options (errori di stringa)

Parametri
errori Criterio di gestione degli errori quando viene trovata una formattazione non valida nell'input. Il valore di 'strict' farà sì che l'operazione produca un errore InvalidArgument su qualsiasi formattazione di input non valida. Un valore "replace" (il valore predefinito) farà sì che l'operazione sostituisca qualsiasi formattazione non valida nell'input con il punto di codice "replacement_char". Un valore "ignore" farà sì che l'operazione salti qualsiasi formattazione non valida nell'input e non produca alcun carattere di output corrispondente.

output pubblico < TString > output ()

Un tensore di stringa contenente testo Unicode codificato utilizzando "output_encoding".

public static UnicodeTranscode.Options replaceControlCharacters (Boolean replaceControlCharacters)

Parametri
sostituireControlCharacters Indica se sostituire i caratteri di controllo C0 (00-1F) con "replacement_char". L'impostazione predefinita è falsa.

public static UnicodeTranscode.Options replaceChar (Long replaceChar)

Parametri
sostituzioneChar Il punto di codice del carattere sostitutivo da utilizzare al posto di qualsiasi formattazione non valida nell'input quando `errors='replace'`. È possibile utilizzare qualsiasi punto di codice Unicode valido. Il valore predefinito è che il carattere sostitutivo Unicode predefinito è 0xFFFD o U+65533.)

Tieni presente che per UTF-8, il passaggio di un carattere sostitutivo esprimibile in 1 byte, ad esempio " ", manterrà l'allineamento della stringa all'origine poiché i byte non validi verranno sostituiti con una sostituzione di 1 byte. Per UTF-16-BE e UTF-16-LE, qualsiasi carattere di sostituzione di 1 o 2 byte manterrà l'allineamento dei byte all'origine.