UnicodeDecodeWithOffsets

clase final pública UnicodeDecodeWithOffsets

Decodifica cada cadena en "entrada" en una secuencia de puntos de código Unicode.

Los puntos de código de caracteres para todas las cadenas se devuelven utilizando un único vector `char_values`, con las cadenas expandidas a caracteres en orden de fila principal. De manera similar, los desplazamientos de bytes de inicio de caracteres se devuelven utilizando un único vector `char_to_byte_starts`, con las cadenas expandidas en orden de fila principal.

El tensor `row_splits` indica dónde comienzan y terminan los puntos de código y los desplazamientos iniciales para cada cadena de entrada dentro de los tensores `char_values` y `char_to_byte_starts`. En particular, los valores de la `i`ésima cadena (en orden de fila principal) se almacenan en el segmento `[row_splits[i]:row_splits[i+1]]`. De este modo:

  • `char_values[row_splits[i]+j]` es el punto de código Unicode para el carácter `j` en la cadena `i` (en orden de fila principal).
  • `char_to_bytes_starts[row_splits[i]+j]` es el desplazamiento del byte inicial para el carácter `j` en la cadena `i` (en orden de fila principal).
  • `row_splits[i+1] - row_splits[i]` es el número de caracteres en la cadena `i` (en orden de fila principal).

Clases anidadas

clase UnicodeDecodeWithOffsets.Opciones Atributos opcionales para UnicodeDecodeWithOffsets

Constantes

Cadena OP_NOMBRE El nombre de esta operación, como lo conoce el motor central de TensorFlow.

Métodos públicos

Salida < TInt64 >
charToByteStarts ()
Un tensor 1D int32 que contiene el índice de bytes en la cadena de entrada donde comienza cada carácter en `char_values`.
Salida < TInt32 >
valoreschar ()
Un tensor 1D int32 que contiene los puntos de código decodificados.
estático UnicodeDecodeWithOffsets < TInt64 >
crear (ámbito de alcance , entrada de operando <TString> , codificación de entrada de cadena, opciones... opciones)
Método de fábrica para crear una clase que envuelve una nueva operación UnicodeDecodeWithOffsets utilizando tipos de salida predeterminados.
estático <T extiende TNumber > UnicodeDecodeWithOffsets <T>
crear (ámbito de alcance , entrada de operando <TString> , codificación de entrada de cadena, clase<T> Tsplits, opciones... opciones)
Método de fábrica para crear una clase que envuelve una nueva operación UnicodeDecodeWithOffsets.
Estático UnicodeDecodeWithOffsets.Options
errores (errores de cadena)
Estático UnicodeDecodeWithOffsets.Options
reemplazarControlCharacters (reemplazarControlCharacters booleano)
Estático UnicodeDecodeWithOffsets.Options
replacementChar (reemplazo largo Char)
Salida <T>
divisiones de fila ()
Un tensor 1D int32 que contiene las divisiones de fila.

Métodos heredados

Constantes

Cadena final estática pública OP_NAME

El nombre de esta operación, como lo conoce el motor central de TensorFlow.

Valor constante: "UnicodeDecodeWithOffsets"

Métodos públicos

Salida pública < TInt64 > charToByteStarts ()

Un tensor 1D int32 que contiene el índice de bytes en la cadena de entrada donde comienza cada carácter en `char_values`.

Salida pública < TInt32 > charValues ​​()

Un tensor 1D int32 que contiene los puntos de código decodificados.

público estático UnicodeDecodeWithOffsets <TInt64> crear (alcance alcance , entrada de operando <TString> , codificación de entrada de cadena, opciones... opciones)

Método de fábrica para crear una clase que envuelve una nueva operación UnicodeDecodeWithOffsets utilizando tipos de salida predeterminados.

Parámetros
alcance alcance actual
aporte El texto a decodificar. Puede tener cualquier forma. Tenga en cuenta que la salida se aplana a un vector de valores de caracteres.
entradaCodificación Codificación de texto de las cadenas de entrada. Esta es cualquiera de las codificaciones admitidas por los convertidores algorítmicos ICU ucnv. Ejemplos: `"UTF-16", "US ASCII", "UTF-8"`.
opciones lleva valores de atributos opcionales
Devoluciones
  • una nueva instancia de UnicodeDecodeWithOffsets

pública estática UnicodeDecodeWithOffsets <T> crear (alcance alcance , entrada de operando <TString> , codificación de entrada de cadena, clase<T> Tsplits, opciones... opciones)

Método de fábrica para crear una clase que envuelve una nueva operación UnicodeDecodeWithOffsets.

Parámetros
alcance alcance actual
aporte El texto a decodificar. Puede tener cualquier forma. Tenga en cuenta que la salida se aplana a un vector de valores de caracteres.
entradaCodificación Codificación de texto de las cadenas de entrada. Esta es cualquiera de las codificaciones admitidas por los convertidores algorítmicos ICU ucnv. Ejemplos: `"UTF-16", "US ASCII", "UTF-8"`.
opciones lleva valores de atributos opcionales
Devoluciones
  • una nueva instancia de UnicodeDecodeWithOffsets

Errores públicos estáticos UnicodeDecodeWithOffsets.Options (errores de cadena)

Parámetros
errores Política de manejo de errores cuando se encuentra un formato no válido en la entrada. El valor de 'estricto' hará que la operación produzca un error InvalidArgument en cualquier formato de entrada no válido. Un valor de 'reemplazar' (el valor predeterminado) hará que la operación reemplace cualquier formato no válido en la entrada con el punto de código `replacement_char`. Un valor de 'ignorar' hará que la operación omita cualquier formato no válido en la entrada y no produzca ningún carácter de salida correspondiente.

público estático UnicodeDecodeWithOffsets.Options reemplazarControlCharacters (booleano reemplazarControlCharacters)

Parámetros
reemplazarControlCharacters Si se deben reemplazar los caracteres de control C0 (00-1F) con `replacement_char`. El valor predeterminado es falso.

UnicodeDecodeWithOffsets.Options estático público replacementChar (Reemplazo largo Char)

Parámetros
reemplazoChar El punto de código del carácter de reemplazo que se utilizará en lugar de cualquier formato no válido en la entrada cuando `errors='replace'`. Se puede utilizar cualquier punto de código Unicode válido. El valor predeterminado es que el carácter de reemplazo Unicode predeterminado es 0xFFFD o U+65533).

Salida pública <T> filaSplits ()

Un tensor 1D int32 que contiene las divisiones de fila.