יום הקהילה ML הוא 9 בנובמבר! הצטרפו אלינו עדכונים מ- TensorFlow, JAX, ועוד למידע נוסף

זרימת טנסור :: אופ :: UnicodeTranscode

#include <string_ops.h>

הקלד מחדש את טקסט הקלט מקידוד מקור לקידוד יעד.

סיכום

הקלט הוא טנזור מחרוזות מכל צורה שהיא. הפלט הוא מחרוזת של אותה צורה המכילה את המיתרים המקודדים. מחרוזות הפלט הן תמיד unicode חוקי. אם הקלט מכיל עמדות קידוד לא חוקיות, תכונת errors קובעת את המדיניות כיצד להתמודד איתן. אם נעשה שימוש במדיניות ברירת המחדל לטיפול בשגיאות, העיצוב הלא חוקי יוחלף בפלט על ידי ה- replacement_char . אם ignore ממדיניות השגיאות, דילוגים על מיקומי קידוד לא חוקיים בקלט אינם כלולים בפלט. אם זה מוגדר strict אז שום עיצוב לא חוקי יגרום לשגיאת InvalidArgument.

ניתן להשתמש בפעולה זו עם output_encoding = input_encoding לאכיפת עיצוב נכון עבור קלטים גם אם הם כבר נמצאים בקידוד הרצוי.

אם הקידומת קודמת לסימן סדר בתים הדרוש לקביעת קידוד (למשל אם הקידוד הוא UTF-16 וה- BOM מציין גדול-אנדיאן), אז ה- BOM ייצרך ולא ייפלט לפלט. אם קידוד הקלט מסומן באדישות מפורשת (למשל UTF-16-BE), אז ה- BOM מתפרש כמרווח שאינו שובר ונשמר בפלט (כולל תמיד עבור UTF-8).

התוצאה הסופית היא שאם הקלט מסומן כקביעות מפורשת ההמרת קידוד נאמנה לכל נקודות הקוד במקור. אם הוא לא מסומן בסיכות מפורשת, ה- BOM אינו נחשב לחלק מהמחרוזת עצמה אלא כמטא נתונים ולכן אינו נשמר בפלט.

טענות:

  • היקף: אובייקט Scope
  • קלט: הטקסט לעיבוד. יכולה להיות כל צורה.
  • input_encoding: קידוד טקסט של מחרוזות הקלט. זהו כל הקידודים הנתמכים על ידי ממירי אלגוריתמים ICU ucnv. דוגמאות: "UTF-16", "US ASCII", "UTF-8" .
  • output_encoding: קידוד ה- Unicode לשימוש בפלט. חייב להיות אחד מ- "UTF-8", "UTF-16-BE", "UTF-32-BE" . קידוד רב בתים יהיה גדול אנדי.

מאפיינים אופציונליים (ראה Attrs ):

  • שגיאות: מדיניות הטיפול בשגיאות כאשר קיימת עיצוב לא חוקי בקלט. הערך של 'קפדני' יגרום לפעולה לייצר שגיאת InvalidArgument בכל עיצוב קלט לא חוקי. ערך "להחליף" (ברירת המחדל) יגרום המבצע להחליף עיצוב כלשהו שאינו חוקי קלט עם replacement_char codepoint. ערך של 'התעלם' יגרום לפעולה לדלג על כל עיצוב לא חוקי בקלט ולא לייצר שום תו פלט מתאים.
  • replacement_char: קוד התו החלופי שישמש במקום כל עיצוב לא חוקי בקלט כאשר errors='replace' . ניתן להשתמש בכל קוד קוד unicode תקף. ערך ברירת המחדל הוא תו החלפת ה- Unicode המוגדר כברירת מחדל הוא 0xFFFD או U + 65533.)

שים לב כי עבור UTF-8, העברת תו חלופי שניתן לבטא בבת אחת, כגון '', תשמור על יישור המחרוזות למקור מכיוון שבתים לא חוקיים יוחלפו בהחלפה של 1 בת. עבור UTF-16-BE ו- UTF-16-LE, כל תו החלפה של 1 או 2 בתים ישמור על יישור בתים למקור.

  • replace_control_characters: אם להחליף את תווי בקרה C0 (00-1F) עם replacement_char . ברירת המחדל היא שקר.

החזרות:

  • Output : טנסור מחרוזת המכיל טקסט יוניקוד המקודד באמצעות output_encoding .

בונים והרסנים

UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding)
UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding, const UnicodeTranscode::Attrs & attrs)

תכונות ציבוריות

operation
output

פונקציות ציבוריות

node () const
::tensorflow::Node *
operator::tensorflow::Input () const
operator::tensorflow::Output () const

פונקציות סטטיות ציבוריות

Errors (StringPiece x)
ReplaceControlCharacters (bool x)
ReplacementChar (int64 x)

סטרוקטורים

tensorflow :: ops :: UnicodeTranscode :: Attrs

קובעי תכונות אופציונליים עבור UnicodeTranscode .

תכונות ציבוריות

מבצע

Operation operation

תְפוּקָה

::tensorflow::Output output

פונקציות ציבוריות

UnicodeTranscode

 UnicodeTranscode(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input input,
  StringPiece input_encoding,
  StringPiece output_encoding
)

UnicodeTranscode

 UnicodeTranscode(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input input,
  StringPiece input_encoding,
  StringPiece output_encoding,
  const UnicodeTranscode::Attrs & attrs
)

צוֹמֶת

::tensorflow::Node * node() const 

אופרטור :: זרימת טנסור :: קלט

 operator::tensorflow::Input() const 

אופרטור :: זרימת טנסור :: פלט

 operator::tensorflow::Output() const 

פונקציות סטטיות ציבוריות

טעויות

Attrs Errors(
  StringPiece x
)

ReplaceControlCharacters

Attrs ReplaceControlCharacters(
  bool x
)

החלפת צ'אר

Attrs ReplacementChar(
  int64 x
)