UnicodeTranscode

публичный финальный класс UnicodeTranscode

Перекодируйте входной текст из исходной кодировки в целевую кодировку.

Входные данные представляют собой строковый тензор любой формы. Выходные данные представляют собой строковый тензор той же формы, содержащий перекодированные строки. Выходные строки всегда действительны в формате Unicode. Если входные данные содержат недопустимые позиции кодировки, атрибут errors устанавливает политику обращения с ними. Если используется политика обработки ошибок по умолчанию, недопустимое форматирование будет заменено в выводе на `replacement_char`. Если политика ошибок настроена на «игнорирование», любые недопустимые позиции кодировки во входных данных пропускаются и не включаются в выходные данные. Если для него установлено значение «строгое», любое недопустимое форматирование приведет к ошибке InvalidArgument.

Эту операцию можно использовать с `output_encoding = input_encoding` для обеспечения правильного форматирования входных данных, даже если они уже находятся в нужной кодировке.

Если входные данные имеют префикс метки порядка байтов, необходимой для определения кодировки (например, если кодировка UTF-16, а спецификация указывает на обратный порядок байтов), то эта спецификация будет использована, а не отправлена ​​в выходные данные. Если входная кодировка помечена явным порядком байтов (например, UTF-16-BE), то спецификация интерпретируется как неразрывный пробел и сохраняется в выходных данных (включая всегда для UTF-8).

Конечным результатом является то, что если входные данные помечены как явный порядок байтов, транскодирование соответствует всем кодовым точкам в источнике. Если он не отмечен явным порядком байтов, спецификация не считается частью самой строки, а является метаданными и поэтому не сохраняется в выходных данных.

Примеры:

>>> tf.strings.unicode_transcode(["Привет", "TensorFlow", "2.x"], "UTF-8", "UTF-16-BE") >>> tf.strings.unicode_transcode(["A", "B", "C"], "US ASCII", "UTF-8").numpy() array([b'A', b'B' , b'C'], dtype=объект)

Вложенные классы

сорт UnicodeTranscode.Options Дополнительные атрибуты для UnicodeTranscode

Константы

Нить OP_NAME Название этой операции, известное основному движку TensorFlow.

Публичные методы

Вывод < TString >
какВывод ()
Возвращает символический дескриптор тензора.
статический UnicodeTranscode
create ( Область действия, Операнд < TString > input, String inputEncoding, String outputEncoding, параметры... )
Фабричный метод для создания класса, обертывающего новую операцию UnicodeTranscode.
статический UnicodeTranscode.Options
ошибки (строковые ошибки)
Вывод < TString >
выход ()
Строковый тензор, содержащий текст в Юникоде, закодированный с помощью `output_encoding`.
статический UnicodeTranscode.Options
replaceControlCharacters (логическое значение replaceControlCharacters)
статический UnicodeTranscode.Options
replaceChar (длинная заменаChar)

Унаследованные методы

Константы

общедоступная статическая финальная строка OP_NAME

Название этой операции, известное основному движку TensorFlow.

Постоянное значение: «UnicodeTranscode»

Публичные методы

публичный вывод < TString > asOutput ()

Возвращает символический дескриптор тензора.

Входные данные для операций TensorFlow являются выходными данными другой операции TensorFlow. Этот метод используется для получения символического дескриптора, который представляет собой вычисление входных данных.

public static UnicodeTranscode create (область действия , вход операнда < TString >, строка inputEncoding, строка outputEncoding, параметры... параметры)

Фабричный метод для создания класса, обертывающего новую операцию UnicodeTranscode.

Параметры
объем текущий объем
вход Текст, подлежащий обработке. Может иметь любую форму.
входноекодирование Текстовое кодирование входных строк. Это любая из кодировок, поддерживаемых алгоритмическими преобразователями ICU ucnv. Примеры: `"UTF-16", "US ASCII", "UTF-8".
выходное кодирование Кодировка Юникода, которая будет использоваться в выходных данных. Должен быть одним из «UTF-8», «UTF-16-BE», «UTF-32-BE». Многобайтовые кодировки будут иметь обратный порядок байтов.
параметры содержит значения необязательных атрибутов
Возврат
  • новый экземпляр UnicodeTranscode

общедоступные статические ошибки UnicodeTranscode.Options (ошибки строки)

Параметры
ошибки Политика обработки ошибок, когда во входных данных обнаружено недопустимое форматирование. Значение 'strict' приведет к тому, что операция выдаст ошибку InvalidArgument при любом недопустимом форматировании входных данных. Значение «replace» (по умолчанию) приведет к тому, что операция заменит любое недопустимое форматирование во входных данных кодовой точкой «replacement_char». Значение «игнорировать» приведет к тому, что операция пропустит любое недопустимое форматирование во входных данных и не выдаст соответствующий выходной символ.

публичный вывод < TString > вывод ()

Строковый тензор, содержащий текст в Юникоде, закодированный с помощью `output_encoding`.

общедоступный статический UnicodeTranscode.Options replaceControlCharacters (логическое значение replaceControlCharacters)

Параметры
заменитьControlCharacters Заменять ли управляющие символы C0 (00-1F) на replace_char. По умолчанию — ложь.

общедоступный статический UnicodeTranscode.Options replaceChar (длинная заменаChar)

Параметры
заменаChar Код символа замены, который будет использоваться вместо любого недопустимого форматирования во входных данных, когда `errors='replace'`. Можно использовать любой действительный код Unicode. Значение по умолчанию — символ замены Юникода по умолчанию — 0xFFFD или U+65533.)

Обратите внимание, что для UTF-8 передача символа замены, выражаемого в 1 байте, например ' ', сохранит выравнивание строки по источнику, поскольку недопустимые байты будут заменены 1-байтовой заменой. Для UTF-16-BE и UTF-16-LE любой символ замены размером 1 или 2 байта сохранит выравнивание байтов по отношению к источнику.