Text | TensorFlow

Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Ferramentas de processamento de texto para o TensorFlow

import tensorflow as tf
import tensorflow_text as tf_text

def preprocess(vocab_table, example_text):

  # Normalize text
  tf_text.normalize_utf8(example_text)

  # Tokenize into words
  word_tokenizer = tf_text.WhitespaceTokenizer()
  tokens = word_tokenizer.tokenize(example_text)

  # Tokenize into subwords
  subword_tokenizer = tf_text.WordpieceTokenizer(
       lookup_table, token_out_type=tf.int64)
  subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1)

  # Apply padding
  padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16)
  return padded_inputs

Executar em um notebook

O TensorFlow oferece uma grande coleção de operações e bibliotecas para ajudar você a trabalhar com entradas em forma de texto, como strings ou documentos de texto bruto. Essas bibliotecas podem realizar o pré-processamento regularmente exigido por modelos baseados em texto, e inclui outros recursos úteis para modelagem sequencial.

É possível extrair recursos textuais sintáticos e semânticos avançados de dentro do gráfico do TensorFlow como entrada para sua rede neural.

A integração do pré-processamento com o gráfico do TensorFlow oferece os seguintes benefícios:

Proporciona várias ferramentas para trabalhar com texto.
Permite a integração com uma pacote de ferramentas do TensorFlow para oferecer suporte a projetos desde a definição do problema até o treinamento, a avaliação e o lançamento.
Diminui a complexidade no momento da disponibilização e impede o desvio de treinamento/disponibilização.

Além disso, você não precisa se preocupar com diferenças entre a tokenização no treinamento e na inferência, nem com o gerenciamento de scripts de pré-processamento.