TensorFlow için metin işleme araçları
import tensorflow as tf import tensorflow_text as tf_text def preprocess(vocab_table, example_text): # Normalize text tf_text.normalize_utf8(example_text) # Tokenize into words word_tokenizer = tf_text.WhitespaceTokenizer() tokens = word_tokenizer.tokenize(example_text) # Tokenize into subwords subword_tokenizer = tf_text.WordpieceTokenizer( lookup_table, token_out_type=tf.int64) subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1) # Apply padding padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16) return padded_inputsBir Defterde Çalıştırın
TensorFlow, ham metin dizeleri veya belgeler gibi metin biçimindeki girdilerle çalışmanıza yardımcı olacak zengin bir operasyon ve kitaplık koleksiyonu sağlar. Bu kitaplıklar, metin tabanlı modellerin düzenli olarak gerektirdiği ön işlemeyi gerçekleştirebilir ve dizi modelleme için yararlı olan diğer özellikleri içerir.
Sinir ağınıza girdi olarak TensorFlow grafiğinin içinden güçlü sözdizimsel ve anlamsal metin özelliklerini çıkarabilirsiniz.
Ön işlemeyi TensorFlow grafiğiyle entegre etmek aşağıdaki faydaları sağlar:
- Metinle çalışmak için büyük bir araç setini kolaylaştırır
- Projeleri problem tanımından eğitim, değerlendirme ve başlatmaya kadar desteklemek için geniş bir Tensorflow araçları paketiyle entegrasyona izin verir
- Servis zamanında karmaşıklığı azaltır ve eğitim-servis çarpıklığını önler
Yukarıdakilere ek olarak, eğitimde belirteçleştirmenin çıkarımdaki belirteçleştirmeden farklı olması veya ön işleme komut dosyalarını yönetme konusunda endişelenmenize gerek yoktur.
