パブリック最終クラスUnicodeDecode
「input」内の各文字列を一連の Unicode コード ポイントにデコードします。
すべての文字列の文字コードポイントは、単一のベクトル `char_values` を使用して返され、文字列は行優先の順序で文字に展開されます。
`row_splits` テンソルは、各入力文字列のコードポイントが `char_values` テンソル内で開始および終了する場所を示します。特に、「i」番目の文字列 (行優先順) の値は、スライス `[row_splits[i]:row_splits[i+1]]` に格納されます。したがって:
- `char_values[row_splits[i]+j]` は、(行優先順で) `i` 番目の文字列内の `j` 番目の文字の Unicode コードポイントです。
- `row_splits[i+1] - row_splits[i]` は、`i` 番目の文字列 (行優先順) の文字数です。
ネストされたクラス
クラス | UnicodeDecode.オプション | UnicodeDecode のオプションの属性 |
パブリックメソッド
出力<整数> | charValues () デコードされたコードポイントを含む 1D int32 Tensor。 |
static <T extends Number> UnicodeDecode <T> | |
静的UnicodeDecode <Long> | |
静的UnicodeDecode.Options | エラー(文字列エラー) |
静的UnicodeDecode.Options | replaceControlCharacters (ブール値 replaceControlCharacters) |
静的UnicodeDecode.Options | replaceChar (長い replaceChar) |
出力<T> | 行分割() 行分割を含む 1D int32 テンソル。 |
継承されたメソッド
パブリックメソッド
public static UnicodeDecode <T> create (スコープscope、オペランド<String>入力、String inputEncoding、Class<T> Tsplits、 Options...オプション)
新しい UnicodeDecode 操作をラップするクラスを作成するファクトリ メソッド。
パラメーター
範囲 | 現在のスコープ |
---|---|
入力 | デコードされるテキスト。任意の形状にすることができます。出力は char 値のベクトルに平坦化されることに注意してください。 |
入力エンコーディング | 入力文字列のテキストエンコーディング。これは、ICU ucnv アルゴリズム コンバーターでサポートされているエンコーディングのいずれかです。例: 「UTF-16」、「US ASCII」、「UTF-8」。 |
オプション | オプションの属性値を持ちます |
戻り値
- UnicodeDecode の新しいインスタンス
public static UnicodeDecode <Long> create (スコープscope、オペランド<String> input、String inputEncoding、 Options...オプション)
デフォルトの出力タイプを使用して、新しい UnicodeDecode 操作をラップするクラスを作成するファクトリ メソッド。
パラメーター
範囲 | 現在のスコープ |
---|---|
入力 | デコードされるテキスト。任意の形状にすることができます。出力は char 値のベクトルに平坦化されることに注意してください。 |
入力エンコーディング | 入力文字列のテキストエンコーディング。これは、ICU ucnv アルゴリズム コンバーターでサポートされているエンコーディングのいずれかです。例: 「UTF-16」、「US ASCII」、「UTF-8」。 |
オプション | オプションの属性値を持ちます |
戻り値
- UnicodeDecode の新しいインスタンス
public static UnicodeDecode.Optionsエラー(文字列エラー)
パラメーター
エラー | 入力に無効な形式が見つかった場合のエラー処理ポリシー。 'strict' の値を指定すると、無効な入力形式に対して操作で InvalidArgument エラーが生成されます。値「replace」(デフォルト) を指定すると、入力内の無効な書式設定が「replacement_char」コードポイントで置き換えられます。値が「ignore」の場合、操作では入力内の無効な書式設定がスキップされ、対応する出力文字は生成されません。 |
---|
public static UnicodeDecode.Options replaceControlCharacters (ブール値 replaceControlCharacters)
パラメーター
制御文字を置き換える | C0 制御文字 (00 ~ 1F) を `replacement_char` に置き換えるかどうか。デフォルトは false です。 |
---|
public static UnicodeDecode.Options replaceChar (Long replaceChar)
パラメーター
置換文字 | `errors='replace'` の場合に、入力内の無効な書式設定の代わりに使用される置換文字コードポイント。任意の有効な Unicode コードポイントを使用できます。デフォルト値は、デフォルトの Unicode 置換文字 0xFFFD または U+65533 です。) |
---|