UnicodeDecode

lớp cuối cùng công khai UnicodeDecode

Giải mã từng chuỗi trong `input` thành một chuỗi các điểm mã Unicode.

Điểm mã ký tự cho tất cả các chuỗi được trả về bằng một vectơ `char_values`, với các chuỗi được mở rộng thành các ký tự theo thứ tự hàng lớn.

Tenxơ `row_splits` cho biết vị trí các điểm mã cho mỗi chuỗi đầu vào bắt đầu và kết thúc trong tenxơ `char_values`. Cụ thể, các giá trị cho chuỗi thứ `i` (theo thứ tự hàng lớn) được lưu trữ trong lát `[row_splits[i]:row_splits[i+1]]`. Như vậy:

  • `char_values[row_splits[i]+j]` là điểm mã Unicode cho ký tự thứ `j` trong chuỗi thứ `i` (theo thứ tự hàng lớn).
  • `row_splits[i+1] - row_splits[i]` là số ký tự trong chuỗi thứ `i` (theo thứ tự hàng lớn).

Các lớp lồng nhau

lớp học UnicodeDecode.Options Thuộc tính tùy chọn cho UnicodeDecode

Phương pháp công khai

Đầu ra <Số nguyên>
giá trị char ()
Tensor 1D int32 chứa các điểm mã được giải mã.
tĩnh <T mở rộng Số> UnicodeDecode <T>
tạo (Phạm vi phạm vi , đầu vào Toán hạng <String>, String inputEncoding, Class<T> Tsplits, Tùy chọn... tùy chọn)
Phương thức gốc để tạo một lớp bao bọc một thao tác UnicodeDecode mới.
Mã Unicode tĩnh <Dài>
tạo ( Phạm vi phạm vi, đầu vào Toán hạng <Chuỗi>, Mã hóa đầu vào chuỗi, Tùy chọn ... )
Phương thức xuất xưởng để tạo một lớp bao bọc thao tác UnicodeDecode mới bằng cách sử dụng các loại đầu ra mặc định.
UnicodeDecode.Options tĩnh
lỗi (Lỗi chuỗi)
UnicodeDecode.Options tĩnh
thay thếControlCharacters (Boolean thay thếControlCharacters)
UnicodeDecode.Options tĩnh
thay thếChar (Char thay thế dài)
Đầu ra <T>
rowSplits ()
Một tenxơ int32 1D chứa các hàng được chia tách.

Phương pháp kế thừa

Phương pháp công khai

Đầu ra công khai <Integer> charValues ​​()

Tensor 1D int32 chứa các điểm mã được giải mã.

public static UnicodeDecode <T> tạo ( Phạm vi phạm vi , đầu vào Toán hạng <String>, String inputEncoding, Class<T> Tsplits, Tùy chọn... tùy chọn)

Phương thức gốc để tạo một lớp bao bọc một thao tác UnicodeDecode mới.

Thông số
phạm vi phạm vi hiện tại
đầu vào Văn bản cần được giải mã. Có thể có bất kỳ hình dạng. Lưu ý rằng đầu ra được làm phẳng thành một vectơ có giá trị char.
mã hóa đầu vào Mã hóa văn bản của chuỗi đầu vào. Đây là bất kỳ mã hóa nào được hỗ trợ bởi bộ chuyển đổi thuật toán ucnv của ICU. Ví dụ: `"UTF-16", "US ASCII", "UTF-8"`.
tùy chọn mang các giá trị thuộc tính tùy chọn
Trả lại
  • một phiên bản mới của UnicodeDecode

public static UnicodeDecode <Long> tạo ( Phạm vi phạm vi, đầu vào Toán hạng <Chuỗi>, Mã hóa đầu vào chuỗi, Tùy chọn... )

Phương thức xuất xưởng để tạo một lớp bao bọc thao tác UnicodeDecode mới bằng cách sử dụng các loại đầu ra mặc định.

Thông số
phạm vi phạm vi hiện tại
đầu vào Văn bản cần được giải mã. Có thể có bất kỳ hình dạng. Lưu ý rằng đầu ra được làm phẳng thành một vectơ có giá trị char.
mã hóa đầu vào Mã hóa văn bản của chuỗi đầu vào. Đây là bất kỳ mã hóa nào được hỗ trợ bởi bộ chuyển đổi thuật toán ucnv của ICU. Ví dụ: `"UTF-16", "US ASCII", "UTF-8"`.
tùy chọn mang các giá trị thuộc tính tùy chọn
Trả lại
  • một phiên bản mới của UnicodeDecode

lỗi UnicodeDecode.Options tĩnh công khai (Lỗi chuỗi)

Thông số
lỗi Chính sách xử lý lỗi khi tìm thấy định dạng không hợp lệ trong đầu vào. Giá trị 'nghiêm ngặt' sẽ khiến thao tác tạo ra lỗi InvalidArgument trên bất kỳ định dạng đầu vào không hợp lệ nào. Giá trị 'thay thế' (mặc định) sẽ khiến thao tác thay thế mọi định dạng không hợp lệ trong đầu vào bằng điểm mã `replacement_char`. Giá trị 'bỏ qua' sẽ khiến thao tác bỏ qua mọi định dạng không hợp lệ trong đầu vào và không tạo ra ký tự đầu ra tương ứng.

UnicodeDecode.Options tĩnh công khai thay thếControlCharacters (Boolean thay thếControlCharacters)

Thông số
ký tự điều khiển thay thế Có thay thế các ký tự điều khiển C0 (00-1F) bằng `replacement_char` hay không. Mặc định là sai.

UnicodeDecode.Options thay thế tĩnh công khaiChar (Char thay thế dài)

Thông số
thay thếChar Điểm mã ký tự thay thế sẽ được sử dụng thay cho bất kỳ định dạng không hợp lệ nào trong đầu vào khi `errors='replace'`. Bất kỳ điểm mã unicode hợp lệ nào cũng có thể được sử dụng. Giá trị mặc định là ký tự thay thế unicode mặc định là 0xFFFD hoặc U+65533.)

Đầu ra công khai <T> rowSplits ()

Một tenxơ int32 1D chứa các hàng được chia tách.