Narzędzia do przetwarzania tekstu dla TensorFlow
import tensorflow as tf import tensorflow_text as tf_text def preprocess(vocab_lookup_table, example_text): # Normalize text tf_text.normalize_utf8(example_text) # Tokenize into words word_tokenizer = tf_text.WhitespaceTokenizer() tokens = word_tokenizer.tokenize(example_text) # Tokenize into subwords subword_tokenizer = tf_text.WordpieceTokenizer( vocab_lookup_table, token_out_type=tf.int64) subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1) # Apply padding padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16) return padded_inputsUruchom w notatniku
TensorFlow zapewnia bogatą kolekcję operacji i bibliotek, które pomogą Ci pracować z danymi wejściowymi w postaci tekstowej, takimi jak nieprzetworzone ciągi tekstowe lub dokumenty. Biblioteki te mogą wykonywać przetwarzanie wstępne wymagane regularnie przez modele tekstowe i zawierają inne funkcje przydatne do modelowania sekwencji.
Możesz wyodrębnić potężne funkcje syntaktyczne i semantyczne tekstu z wykresu TensorFlow jako dane wejściowe do swojej sieci neuronowej.
Integracja przetwarzania wstępnego z wykresem TensorFlow zapewnia następujące korzyści:
- Ułatwia duży zestaw narzędzi do pracy z tekstem
- Umożliwia integrację z dużym pakietem narzędzi Tensorflow w celu wsparcia projektów od zdefiniowania problemu przez szkolenie, ocenę i uruchomienie
- Zmniejsza złożoność w czasie podawania i zapobiega przekrzywieniu obsługi szkolenia
Oprócz powyższego nie musisz się martwić, że tokenizacja w szkoleniu będzie inna niż tokenizacja na wnioskowaniu, czy zarządzanie skryptami preprocessingu.
