כלי עיבוד טקסט עבור TensorFlow
import tensorflow as tf import tensorflow_text as tf_text def preprocess(vocab_lookup_table, example_text): # Normalize text tf_text.normalize_utf8(example_text) # Tokenize into words word_tokenizer = tf_text.WhitespaceTokenizer() tokens = word_tokenizer.tokenize(example_text) # Tokenize into subwords subword_tokenizer = tf_text.WordpieceTokenizer( vocab_lookup_table, token_out_type=tf.int64) subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1) # Apply padding padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16) return padded_inputsהפעל במחברת
TensorFlow מספק לך אוסף עשיר של פעולות וספריות כדי לעזור לך לעבוד עם קלט בצורת טקסט כגון מחרוזות טקסט גולמיות או מסמכים. ספריות אלה יכולות לבצע את העיבוד המקדים הנדרש באופן קבוע על ידי מודלים מבוססי טקסט, וכוללות תכונות אחרות שימושיות עבור מודלים של רצף.
אתה יכול לחלץ תכונות טקסט תחביריות וסמנטיות חזקות מתוך גרף TensorFlow כקלט לרשת העצבית שלך.
שילוב עיבוד מקדים עם גרף TensorFlow מספק את היתרונות הבאים:
- מאפשר ערכת כלים גדולה לעבודה עם טקסט
- מאפשר אינטגרציה עם חבילה גדולה של כלים של Tensorflow לתמיכה בפרויקטים מהגדרת בעיות דרך הדרכה, הערכה והשקה
- מפחית את המורכבות בזמן ההגשה ומונע הטיית אימון-הגשה
בנוסף לאמור לעיל, אינך צריך לדאוג שהטוקניזציה באימון תהיה שונה מהטוקניזציה בהסקת ההסקה, או ניהול סקריפטים בעיבוד מקדים.
