Ferramentas de processamento de texto para TensorFlow
import tensorflow as tf import tensorflow_text as tf_text def preprocess(vocab_lookup_table, example_text): # Normalize text tf_text.normalize_utf8(example_text) # Tokenize into words word_tokenizer = tf_text.WhitespaceTokenizer() tokens = word_tokenizer.tokenize(example_text) # Tokenize into subwords subword_tokenizer = tf_text.WordpieceTokenizer( vocab_lookup_table, token_out_type=tf.int64) subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1) # Apply padding padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16) return padded_inputsExecutar em um Notebook
O TensorFlow oferece uma rica coleção de operações e bibliotecas para ajudá-lo a trabalhar com entrada em formato de texto, como strings de texto bruto ou documentos. Essas bibliotecas podem executar o pré-processamento regularmente exigido por modelos baseados em texto e incluem outros recursos úteis para modelagem de sequência.
Você pode extrair recursos de texto sintático e semântico poderosos de dentro do gráfico do TensorFlow como entrada para sua rede neural.
A integração do pré-processamento com o gráfico do TensorFlow oferece os seguintes benefícios:
- Facilita um grande kit de ferramentas para trabalhar com texto
- Permite a integração com um grande conjunto de ferramentas do Tensorflow para apoiar projetos desde a definição do problema até o treinamento, avaliação e lançamento
- Reduz a complexidade no tempo de veiculação e evita distorções na veiculação de treinamento
Além do acima, você não precisa se preocupar com a tokenização no treinamento ser diferente da tokenização na inferência ou com o gerenciamento de scripts de pré-processamento.
