Strumenti di elaborazione del testo per TensorFlow
import tensorflow as tf import tensorflow_text as tf_text def preprocess(vocab_lookup_table, example_text): # Normalize text tf_text.normalize_utf8(example_text) # Tokenize into words word_tokenizer = tf_text.WhitespaceTokenizer() tokens = word_tokenizer.tokenize(example_text) # Tokenize into subwords subword_tokenizer = tf_text.WordpieceTokenizer( vocab_lookup_table, token_out_type=tf.int64) subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1) # Apply padding padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16) return padded_inputsEsegui in un notebook
TensorFlow ti offre una ricca raccolta di operazioni e librerie per aiutarti a lavorare con l'input in forma di testo come stringhe di testo grezzo o documenti. Queste librerie possono eseguire la preelaborazione regolarmente richiesta dai modelli basati su testo e includono altre funzionalità utili per la modellazione di sequenze.
Puoi estrarre potenti funzionalità di testo sintattiche e semantiche dall'interno del grafico TensorFlow come input per la tua rete neurale.
L'integrazione della preelaborazione con il grafico TensorFlow offre i seguenti vantaggi:
- Facilita un grande toolkit per lavorare con il testo
- Consente l'integrazione con un'ampia suite di strumenti Tensorflow per supportare i progetti dalla definizione dei problemi attraverso la formazione, la valutazione e il lancio
- Riduce la complessità al momento del servizio e previene lo sbilanciamento del servizio di formazione
Oltre a quanto sopra, non devi preoccuparti che la tokenizzazione nell'addestramento sia diversa dalla tokenizzazione all'inferenza o dalla gestione degli script di preelaborazione.
