TensorFlow için metin işleme araçları

import tensorflow as tf
import tensorflow_text as tf_text

def preprocess(vocab_lookup_table, example_text):

  # Normalize text
  tf_text.normalize_utf8(example_text)

  # Tokenize into words
  word_tokenizer = tf_text.WhitespaceTokenizer()
  tokens = word_tokenizer.tokenize(example_text)

  # Tokenize into subwords
  subword_tokenizer = tf_text.WordpieceTokenizer(
       vocab_lookup_table, token_out_type=tf.int64)
  subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1)

  # Apply padding
  padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16)
  return padded_inputs
Bir Defterde Çalıştırın

TensorFlow, ham metin dizeleri veya belgeler gibi metin biçimindeki girdilerle çalışmanıza yardımcı olacak zengin bir operasyon ve kitaplık koleksiyonu sağlar. Bu kitaplıklar, metin tabanlı modellerin düzenli olarak gerektirdiği ön işlemeyi gerçekleştirebilir ve dizi modelleme için yararlı olan diğer özellikleri içerir.

Sinir ağınıza girdi olarak TensorFlow grafiğinin içinden güçlü sözdizimsel ve anlamsal metin özelliklerini çıkarabilirsiniz.

Ön işlemeyi TensorFlow grafiğiyle entegre etmek aşağıdaki faydaları sağlar:

  • Metinle çalışmak için büyük bir araç setini kolaylaştırır
  • Projeleri problem tanımından eğitim, değerlendirme ve başlatmaya kadar desteklemek için geniş bir Tensorflow araçları paketiyle entegrasyona izin verir
  • Servis zamanında karmaşıklığı azaltır ve eğitim-servis çarpıklığını önler

Yukarıdakilere ek olarak, eğitimde belirteçleştirmenin çıkarımdaki belirteçleştirmeden farklı olması veya ön işleme komut dosyalarını yönetme konusunda endişelenmenize gerek yoktur.

Model Mimarileri
Metin üzerinde uçtan uca BERT ön işlemeyi nasıl gerçekleştireceğinizi öğrenin.
Metinden alt sözcük dağarcığı oluşturmayı öğrenin.
BERT modeliyle metni nasıl sınıflandıracağınızı öğrenin.
Tekrarlayan Sinir Ağlarını kullanarak metni sınıflandırın.
Metni çevirmek için Transformer modellerini kullanın.
Diziden diziye modellerle metni nasıl çevireceğinizi öğrenin.