StringNGrams

clase final pública StringNGrams

Crea ngramas a partir de datos de cadenas irregulares.

Esta operación acepta un tensor irregular con 1 dimensión irregular que contiene solo cadenas y genera un tensor irregular con 1 dimensión irregular que contiene ngramas de esa cadena, unidos a lo largo del eje más interno.

Métodos públicos

estático <T extiende Número> StringNGrams <T>
crear (alcance de alcance , datos de operando <String>, divisiones de datos de operando <T>, separador de cadena, lista <Long> ngramWidths, cadena leftPad, cadena rightPad, Long padWidth, booleano preserveShortSequences)
Método de fábrica para crear una clase que envuelve una nueva operación StringNGrams.
Salida <Cadena>
ngramas ()
El tensor de valores del tensor irregular de ngramas de salida.
Salida <T>
ngramasDivididas ()
El tensor de división del tensor irregular de ngramas de salida.

Métodos heredados

Métodos públicos

crear StringNGrams <T> estáticos públicos (alcance del alcance , datos del operando <String>, divisiones de datos del operando <T>, separador de cadenas, lista <Long> ngramWidths, String leftPad, String rightPad, Long padWidth, Boolean preserveShortSequences)

Método de fábrica para crear una clase que envuelve una nueva operación StringNGrams.

Parámetros
alcance alcance actual
datos El tensor de valores del tensor de cuerda irregular del que se van a formar ngramas. Debe ser un tensor de cuerda 1D.
divisiones de datos El tensor divide el tensor de cuerda irregular para formar ngramas.
separador La cadena que se agregará entre los elementos del token. Utilice "" sin separador.
ngramAnchos Los tamaños de los ngramas a crear.
almohadilla izquierda La cadena que se utilizará para rellenar el lado izquierdo de la secuencia de ngram. Solo se usa si pad_width! = 0.
pad derecho La cadena que se utilizará para rellenar el lado derecho de la secuencia de ngram. Solo se usa si pad_width! = 0.
ancho de almohadilla El número de elementos de relleno que se agregarán a cada lado de cada secuencia. Tenga en cuenta que el relleno nunca será mayor que 'ngram_widths'-1 independientemente de este valor. Si `pad_width = -1`, agregue elementos `max (ngram_widths) -1`.
Devoluciones
  • una nueva instancia de StringNGrams

Salida pública <Cadena> ngramas ()

El tensor de valores del tensor irregular de ngramas de salida.

Salida pública <T> ngramsSplits ()

El tensor de división del tensor irregular de ngramas de salida.