ابزارهای پردازش متن برای TensorFlow
import tensorflow as tf import tensorflow_text as tf_text def preprocess(vocab_lookup_table, example_text): # Normalize text tf_text.normalize_utf8(example_text) # Tokenize into words word_tokenizer = tf_text.WhitespaceTokenizer() tokens = word_tokenizer.tokenize(example_text) # Tokenize into subwords subword_tokenizer = tf_text.WordpieceTokenizer( vocab_lookup_table, token_out_type=tf.int64) subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1) # Apply padding padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16) return padded_inputsاجرا در یک نوت بوک
TensorFlow مجموعهای غنی از عملیاتها و کتابخانهها را در اختیار شما قرار میدهد تا به شما کمک کند تا با ورودی به شکل متنی مانند رشتههای متن خام یا اسناد کار کنید. این کتابخانهها میتوانند پیشپردازشهای منظم مورد نیاز مدلهای مبتنی بر متن را انجام دهند و شامل سایر ویژگیهای مفید برای مدلسازی توالی هستند.
می توانید ویژگی های متنی قدرتمند نحوی و معنایی را از داخل نمودار TensorFlow به عنوان ورودی شبکه عصبی خود استخراج کنید.
ادغام پیش پردازش با نمودار TensorFlow مزایای زیر را به همراه دارد:
- یک جعبه ابزار بزرگ را برای کار با متن تسهیل می کند
- امکان ادغام با مجموعه بزرگی از ابزارهای Tensorflow برای پشتیبانی از پروژه ها از طریق تعریف مشکل از طریق آموزش، ارزیابی و راه اندازی
- پیچیدگی زمان سرو را کاهش می دهد و از انحراف در سرویس آموزشی جلوگیری می کند
علاوه بر موارد فوق، لازم نیست نگران متفاوت بودن توکن سازی در آموزش با توکن سازی در استنتاج یا مدیریت اسکریپت های پیش پردازش باشید.
