UnicodeDecode

публичный финальный класс UnicodeDecode

Декодирует каждую строку в `input` в последовательность кодовых точек Unicode.

Кодовые точки символов для всех строк возвращаются с использованием одного вектора `char_values`, при этом строки расширяются до символов в порядке следования строк.

Тензор row_splits указывает, где начинаются и заканчиваются кодовые точки для каждой входной строки внутри тензора char_values. В частности, значения для `i`-й строки (в порядке следования строк) сохраняются в срезе `[row_splits[i]:row_splits[i+1]]`. Таким образом:

  • `char_values[row_splits[i]+j]` — это код Unicode для `j`-го символа в `i`-й строке (в порядке следования строк).
  • `row_splits[i+1] - row_splits[i]` — это количество символов в `i`-й строке (в порядке возрастания строк).

Вложенные классы

сорт UnicodeDecode.Параметры Дополнительные атрибуты для UnicodeDecode

Публичные методы

Вывод <Целое число>
символьные значения ()
Тензор 1D int32, содержащий декодированные кодовые точки.
статический <T расширяет число> UnicodeDecode <T>
create ( Область области, ввод операнда <String>, строка inputEncoding, класс <T> Tsplit, параметры ... )
Фабричный метод для создания класса, обертывающего новую операцию UnicodeDecode.
статический UnicodeDecode <Long>
create (Область действия , ввод операнда <String>, ввод строки StringEncoding, параметры... )
Фабричный метод для создания класса, обертывающего новую операцию UnicodeDecode, с использованием типов вывода по умолчанию.
статический UnicodeDecode.Options
ошибки (строковые ошибки)
статический UnicodeDecode.Options
replaceControlCharacters (логическое значение replaceControlCharacters)
статический UnicodeDecode.Options
replaceChar (длинная заменаChar)
Выход <Т>
строка Сплит ()
Одномерный тензор int32, содержащий разбиения строк.

Унаследованные методы

Публичные методы

публичный вывод <Integer> charValues ​​()

Тензор 1D int32, содержащий декодированные кодовые точки.

public static UnicodeDecode <T> create (область области действия , ввод операнда <String>, ввод строки StringEncoding, Class<T> Tsplit, параметры... параметры)

Фабричный метод для создания класса, обертывающего новую операцию UnicodeDecode.

Параметры
объем текущий объем
вход Текст, который нужно декодировать. Может иметь любую форму. Обратите внимание, что выходные данные сглаживаются до вектора символьных значений.
входноекодирование Текстовое кодирование входных строк. Это любая из кодировок, поддерживаемых алгоритмическими преобразователями ICU ucnv. Примеры: `"UTF-16", "US ASCII", "UTF-8".
параметры содержит значения необязательных атрибутов
Возврат
  • новый экземпляр UnicodeDecode

public static UnicodeDecode <Long> create (область области действия , ввод операнда <String>, ввод строки StringEncoding, параметры ... )

Фабричный метод для создания класса, обертывающего новую операцию UnicodeDecode, с использованием типов вывода по умолчанию.

Параметры
объем текущий объем
вход Текст, который нужно декодировать. Может иметь любую форму. Обратите внимание, что выходные данные сглаживаются до вектора символьных значений.
входноекодирование Текстовое кодирование входных строк. Это любая из кодировок, поддерживаемых алгоритмическими преобразователями ICU ucnv. Примеры: `"UTF-16", "US ASCII", "UTF-8".
параметры содержит значения необязательных атрибутов
Возврат
  • новый экземпляр UnicodeDecode

общедоступные статические ошибки UnicodeDecode.Options (ошибки строки)

Параметры
ошибки Политика обработки ошибок, когда во входных данных обнаружено недопустимое форматирование. Значение 'strict' приведет к тому, что операция выдаст ошибку InvalidArgument при любом недопустимом форматировании входных данных. Значение «replace» (по умолчанию) приведет к тому, что операция заменит любое недопустимое форматирование во входных данных кодовой точкой «replacement_char». Значение «игнорировать» приведет к тому, что операция пропустит любое недопустимое форматирование во входных данных и не выдаст соответствующий выходной символ.

общедоступный статический UnicodeDecode.Options replaceControlCharacters (логическое значение replaceControlCharacters)

Параметры
заменитьControlCharacters Заменять ли управляющие символы C0 (00-1F) на replace_char. По умолчанию — ложь.

общедоступный статический UnicodeDecode.Options replaceChar (Long replaceChar)

Параметры
заменаChar Код символа замены, который будет использоваться вместо любого недопустимого форматирования во входных данных, когда `errors='replace'`. Можно использовать любой действительный код Unicode. Значением по умолчанию является символ замены Юникода по умолчанию: 0xFFFD или U+65533.)

общедоступный вывод <T> rowSplits ()

Одномерный тензор int32, содержащий разбиения строк.