أدوات معالجة النصوص لـ TensorFlow
import tensorflow as tf import tensorflow_text as tf_text def preprocess(vocab_lookup_table, example_text): # Normalize text tf_text.normalize_utf8(example_text) # Tokenize into words word_tokenizer = tf_text.WhitespaceTokenizer() tokens = word_tokenizer.tokenize(example_text) # Tokenize into subwords subword_tokenizer = tf_text.WordpieceTokenizer( vocab_lookup_table, token_out_type=tf.int64) subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1) # Apply padding padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16) return padded_inputsتشغيل فى دفتر
يوفر لك TensorFlow مجموعة غنية من العمليات والمكتبات لمساعدتك في العمل مع الإدخال في نموذج نصي مثل سلاسل النص الخام أو المستندات. يمكن لهذه المكتبات إجراء المعالجة المسبقة التي تتطلبها النماذج النصية بانتظام ، وتتضمن ميزات أخرى مفيدة لنمذجة التسلسل.
يمكنك استخراج ميزات نصية وتركيبية قوية من داخل الرسم البياني TensorFlow كمدخل إلى شبكتك العصبية.
يوفر تكامل المعالجة المسبقة مع الرسم البياني TensorFlow الفوائد التالية:
- يسهل مجموعة أدوات كبيرة للعمل مع النص
- يسمح بالتكامل مع مجموعة كبيرة من أدوات Tensorflow لدعم المشاريع من تحديد المشكلة من خلال التدريب والتقييم والبدء
- يقلل من التعقيد في وقت التقديم ويمنع انحراف تقديم التدريب
بالإضافة إلى ما سبق ، لا داعي للقلق بشأن اختلاف الرمز المميز في التدريب عن الرمز المميز في الاستدلال ، أو إدارة البرامج النصية للمعالجة المسبقة.
