כלי עיבוד טקסט עבור TensorFlow

import tensorflow as tf
import tensorflow_text as tf_text

def preprocess(vocab_lookup_table, example_text):

  # Normalize text
  tf_text.normalize_utf8(example_text)

  # Tokenize into words
  word_tokenizer = tf_text.WhitespaceTokenizer()
  tokens = word_tokenizer.tokenize(example_text)

  # Tokenize into subwords
  subword_tokenizer = tf_text.WordpieceTokenizer(
       vocab_lookup_table, token_out_type=tf.int64)
  subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1)

  # Apply padding
  padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16)
  return padded_inputs
הפעל במחברת

TensorFlow מספק לך אוסף עשיר של פעולות וספריות כדי לעזור לך לעבוד עם קלט בצורת טקסט כגון מחרוזות טקסט גולמיות או מסמכים. ספריות אלה יכולות לבצע את העיבוד המקדים הנדרש באופן קבוע על ידי מודלים מבוססי טקסט, וכוללות תכונות אחרות שימושיות עבור מודלים של רצף.

אתה יכול לחלץ תכונות טקסט תחביריות וסמנטיות חזקות מתוך גרף TensorFlow כקלט לרשת העצבית שלך.

שילוב עיבוד מקדים עם גרף TensorFlow מספק את היתרונות הבאים:

  • מאפשר ערכת כלים גדולה לעבודה עם טקסט
  • מאפשר אינטגרציה עם חבילה גדולה של כלים של Tensorflow לתמיכה בפרויקטים מהגדרת בעיות דרך הדרכה, הערכה והשקה
  • מפחית את המורכבות בזמן ההגשה ומונע הטיית אימון-הגשה

בנוסף לאמור לעיל, אינך צריך לדאוג שהטוקניזציה באימון תהיה שונה מהטוקניזציה בהסקת ההסקה, או ניהול סקריפטים בעיבוד מקדים.

ארכיטקטורות מודל
למד כיצד לבצע עיבוד מקדים של BERT מקצה לקצה על טקסט.
למד כיצד ליצור אוצר מילים של מילות משנה מטקסט.
למד כיצד לסווג טקסט עם מודל BERT.
סיווג טקסט באמצעות רשתות עצביות חוזרות.
השתמש במודלים של שנאי כדי לתרגם טקסט.
למד כיצד לתרגם טקסט עם מודלים מרצף לרצף.