מדריך לעיבוד טקסט של TensorFlow

המדריך לעיבוד טקסט של TensorFlow מתעד ספריות וזרימות עבודה לעיבוד שפה טבעית (NLP) ומציג מושגים חשובים לעבודה עם טקסט.

KerasNLP

KerasNLP היא ספריית עיבוד שפה טבעית ברמה גבוהה (NLP) הכוללת את כל הדגמים העדכניים ביותר מבוססי רובוטריקים וכן כלי עזר לטוקניזציה ברמה נמוכה יותר. זה הפתרון המומלץ עבור רוב מקרי השימוש ב-NLP.

  • תחילת העבודה עם KerasNLP : למד KerasNLP על ידי ביצוע ניתוח סנטימנטים ברמות מורכבות מתקדמת, משימוש במודל מאומן מראש ועד לבניית שנאי משלך מאפס.

tf.strings

מודול tf.strings מספק פעולות לעבודה עם Tensors מחרוזות.

  • מחרוזות Unicode : ייצג מחרוזות Unicode ב-TensorFlow ותפעל אותן באמצעות מקבילות Unicode של פעולות מחרוזות סטנדרטיות.

טקסט TensorFlow

אם אתה צריך גישה לכלי עיבוד טקסט ברמה נמוכה יותר, אתה יכול להשתמש ב- TensorFlow Text. TensorFlow Text מספק אוסף של פעולות וספריות כדי לעזור לך לעבוד עם קלט בצורת טקסט כגון מחרוזות טקסט גולמיות או מסמכים.

עיבוד מקדים

  • BERT Preprocessing עם TF Text : השתמש ב- TensorFlow Text Preprocessing אופציות כדי להפוך נתוני טקסט לקלט עבור BERT.
  • יצירת אסימונים עם טקסט TF : הבן את אפשרויות האסימון שמספק TensorFlow Text. למד מתי אולי תרצה להשתמש באפשרות אחת על פני אחרת, וכיצד קוראים לאסימונים האלה מתוך הדגם שלך.
  • אסימוני מילות משנה : צור אוצר מילים של תת מילת נתונים ממערך נתונים, והשתמש בו כדי לבנות text.BertTokenizer מאוצר המילים.

דגמי TensorFlow – NLP

ספריית TensorFlow Models - NLP מספקת פרימיטיבים של Keras שניתן להרכיב למודלים מבוססי שנאי, ושיעורי פיגומים המאפשרים ניסוי קל בארכיטקטורות חדשניות.