UnicodeTranscode

UnicodeTranscode public final class

Transcodifica el texto de entrada de una codificación de origen a una codificación de destino.

La entrada es un tensor de cuerda de cualquier forma. La salida es un tensor de cadena de la misma forma que contiene las cadenas transcodificadas. Las cadenas de salida son siempre unicode válido. Si la entrada contiene posiciones de codificación no válidas, el atributo `errors` establece la política sobre cómo tratarlos. Si se usa la política de manejo de errores predeterminada, el formato no válido será sustituido en la salida por el `replacement_char`. Si la política de errores es "ignorar", cualquier posición de codificación no válida en la entrada se omite y no se incluye en la salida. Si se establece en "estricto", cualquier formato no válido dará como resultado un error de argumento no válido.

Esta operación se puede usar con `output_encoding = input_encoding` para imponer el formato correcto para las entradas, incluso si ya están en la codificación deseada.

Si la entrada tiene como prefijo una marca de orden de bytes necesaria para determinar la codificación (por ejemplo, si la codificación es UTF-16 y la lista de materiales indica big-endian), esa lista de materiales se consumirá y no se emitirá en la salida. Si la codificación de entrada está marcada con un endianness explícito (por ejemplo, UTF-16-BE), la lista de materiales se interpreta como un espacio sin ruptura y se conserva en la salida (incluido siempre para UTF-8).

El resultado final es que si la entrada se marca como un endianness explícito, la transcodificación es fiel a todos los puntos de código en la fuente. Si no está marcado con un endianness explícito, la lista de materiales no se considera parte de la cadena en sí, sino como metadatos, por lo que no se conserva en la salida.

Ejemplos:

>>> tf.strings.unicode_transcode (["Hola", "TensorFlow", "2.x"], "UTF-8", "UTF-16-BE") >>> tf.strings.unicode_transcode (["A", "B", "C"], "US ASCII", "UTF-8"). numpy () matriz ([b'A ', b'B' , b'C '], dtype = objeto)

Clases anidadas

clase UnicodeTranscode.Options Los atributos opcionales para UnicodeTranscode

Constantes

Cuerda OP_NAME El nombre de esta operación, como lo conoce el motor central de TensorFlow

Métodos públicos

Salida < TString >
asOutput ()
Devuelve el identificador simbólico del tensor.
estática UnicodeTranscode
crear ( Alcance alcance, operando < TString > entrada, Cadena InputEncoding, Cadena OutputEncoding, Opciones ... Opciones)
Método de fábrica para crear una clase que envuelva una nueva operación UnicodeTranscode.
estáticas UnicodeTranscode.Options
errores (errores de Cuerda)
Salida < TString >
salida ()
Un tensor de cadena que contiene texto Unicode codificado con `output_encoding`.
estáticas UnicodeTranscode.Options
replaceControlCharacters (replaceControlCharacters booleanas)
estáticas UnicodeTranscode.Options
replacementChar (Long replacementChar)

Métodos heredados

Constantes

OP_NAME pública final static String

El nombre de esta operación, como lo conoce el motor central de TensorFlow

Valor constante: "UnicodeTranscode"

Métodos públicos

pública de salida < TString > asOutput ()

Devuelve el identificador simbólico del tensor.

Las entradas a las operaciones de TensorFlow son salidas de otra operación de TensorFlow. Este método se utiliza para obtener un identificador simbólico que representa el cálculo de la entrada.

public static UnicodeTranscode crear ( Alcance alcance, operando < TString > entrada, Cadena InputEncoding, Cadena OutputEncoding, Opciones ... Opciones)

Método de fábrica para crear una clase que envuelva una nueva operación UnicodeTranscode.

Parámetros
alcance alcance actual
aporte El texto a procesar. Puede tener cualquier forma.
inputEncoding Codificación de texto de las cadenas de entrada. Esta es cualquiera de las codificaciones admitidas por los convertidores algorítmicos ucnv de ICU. Ejemplos: "" UTF-16 "," US ASCII "," UTF-8 "`.
outputEncoding La codificación Unicode que se utilizará en la salida. Debe ser uno de "" UTF-8 "," UTF-16-BE "," UTF-32-BE "`. Las codificaciones de varios bytes serán big-endian.
opciones lleva valores de atributos opcionales
Devoluciones
  • una nueva instancia de UnicodeTranscode

estáticas pública UnicodeTranscode.Options errores (errores de Cuerda)

Parámetros
errores Política de manejo de errores cuando se encuentra un formato no válido en la entrada. El valor de 'estricto' hará que la operación produzca un error InvalidArgument en cualquier formato de entrada no válido. Un valor de 'reemplazar' (el valor predeterminado) hará que la operación reemplace cualquier formato no válido en la entrada con el punto de código `replacement_char`. Un valor de 'ignorar' hará que la operación omita cualquier formato no válido en la entrada y no produzca ningún carácter de salida correspondiente.

pública de salida < TString > salida ()

Un tensor de cadena que contiene texto Unicode codificado con `output_encoding`.

estáticas pública UnicodeTranscode.Options replaceControlCharacters (replaceControlCharacters booleanas)

Parámetros
replaceControlCharacters Ya sea para reemplazar los caracteres de control C0 (00-1F) con el `replacement_char`. El valor predeterminado es falso.

public static UnicodeTranscode.Options replacementChar (Long replacementChar)

Parámetros
reemplazoChar El punto de código de carácter de reemplazo que se utilizará en lugar de cualquier formato no válido en la entrada cuando `errors = 'replace'`. Se puede utilizar cualquier punto de código Unicode válido. El valor predeterminado es el carácter de reemplazo Unicode predeterminado es 0xFFFD o U + 65533.)

Tenga en cuenta que para UTF-8, pasar un carácter de reemplazo expresable en 1 byte, como '', preservará la alineación de la cadena con la fuente, ya que los bytes no válidos se reemplazarán con un reemplazo de 1 byte. Para UTF-16-BE y UTF-16-LE, cualquier carácter de reemplazo de 1 o 2 bytes conservará la alineación de bytes con la fuente.