Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Ferramentas de processamento de texto para TensorFlow

import tensorflow as tf
import tensorflow_text as tf_text

def preprocess(vocab_lookup_table, example_text):

  # Normalize text
  tf_text.normalize_utf8(example_text)

  # Tokenize into words
  word_tokenizer = tf_text.WhitespaceTokenizer()
  tokens = word_tokenizer.tokenize(example_text)

  # Tokenize into subwords
  subword_tokenizer = tf_text.WordpieceTokenizer(
       vocab_lookup_table, token_out_type=tf.int64)
  subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1)

  # Apply padding
  padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16)
  return padded_inputs
Executar em um Notebook

O TensorFlow oferece uma rica coleção de operações e bibliotecas para ajudá-lo a trabalhar com entrada em formato de texto, como strings de texto bruto ou documentos. Essas bibliotecas podem executar o pré-processamento regularmente exigido por modelos baseados em texto e incluem outros recursos úteis para modelagem de sequência.

Você pode extrair recursos de texto sintático e semântico poderosos de dentro do gráfico do TensorFlow como entrada para sua rede neural.

A integração do pré-processamento com o gráfico do TensorFlow oferece os seguintes benefícios:

  • Facilita um grande kit de ferramentas para trabalhar com texto
  • Permite a integração com um grande conjunto de ferramentas do Tensorflow para apoiar projetos desde a definição do problema até o treinamento, avaliação e lançamento
  • Reduz a complexidade no tempo de veiculação e evita distorções na veiculação de treinamento

Além do acima, você não precisa se preocupar com a tokenização no treinamento ser diferente da tokenização na inferência ou com o gerenciamento de scripts de pré-processamento.

Arquiteturas de modelo
Saiba como realizar o pré-processamento de BERT de ponta a ponta no texto.
Aprenda a gerar vocabulários de subpalavras a partir do texto.
Aprenda a classificar texto com o modelo BERT.
Classifique o texto usando Redes Neurais Recorrentes.
Use os modelos do Transformer para traduzir texto.
Saiba como traduzir texto com modelos de sequência para sequência.