Unicodeデコード

パブリック最終クラスUnicodeDecode

「input」内の各文字列を一連の Unicode コード ポイントにデコードします。

すべての文字列の文字コードポイントは、単一のベクトル `char_values` を使用して返され、文字列は行優先の順序で文字に展開されます。

`row_splits` テンソルは、各入力文字列のコードポイントが `char_values` テンソル内で開始および終了する場所を示します。特に、「i」番目の文字列 (行優先順) の値は、スライス `[row_splits[i]:row_splits[i+1]]` に格納されます。したがって:

  • `char_values[row_splits[i]+j]` は、(行優先順で) `i` 番目の文字列内の `j` 番目の文字の Unicode コードポイントです。
  • `row_splits[i+1] - row_splits[i]` は、`i` 番目の文字列 (行優先順) の文字数です。

ネストされたクラス

クラスUnicodeDecode.オプションUnicodeDecodeのオプションの属性

パブリックメソッド

出力<整数>
charValues ()
デコードされたコードポイントを含む 1D int32 Tensor。
static <T extends Number> UnicodeDecode <T>
create (スコープscope、オペランド<String>入力、文字列inputEncoding、Class<T>Tsplits、オプション...オプション)
新しい UnicodeDecode 操作をラップするクラスを作成するファクトリ メソッド。
静的UnicodeDecode <Long>
create (スコープscope、オペランド<String>入力、文字列inputEncoding、オプション...オプション)
デフォルトの出力タイプを使用して、新しい UnicodeDecode 操作をラップするクラスを作成するファクトリ メソッド。
静的UnicodeDecode.Options
エラー(文字列エラー)
静的UnicodeDecode.Options
replaceControlCharacters (ブール値 replaceControlCharacters)
静的UnicodeDecode.Options
replaceChar (長い replaceChar)
出力<T>
行分割()
行分割を含む 1D int32 テンソル。

継承されたメソッド

パブリックメソッド

public Output <Integer> charValues ()

デコードされたコードポイントを含む 1D int32 Tensor。

public static UnicodeDecode <T> create (スコープscope、オペランド<String>入力、String inputEncoding、Class<T> Tsplits、 Options...オプション)

新しい UnicodeDecode 操作をラップするクラスを作成するファクトリ メソッド。

パラメーター
範囲現在のスコープ
入力デコードされるテキスト。任意の形状にすることができます。出力は char 値のベクトルに平坦化されることに注意してください。
入力エンコーディング入力文字列のテキストエンコーディング。これは、ICU ucnv アルゴリズム コンバーターでサポートされているエンコーディングのいずれかです。例: 「UTF-16」、「US ASCII」、「UTF-8」。
オプションオプションの属性値を持ちます
戻り値
  • UnicodeDecode の新しいインスタンス

public static UnicodeDecode <Long> create (スコープscope、オペランド<String> input、String inputEncoding、 Options...オプション)

デフォルトの出力タイプを使用して、新しい UnicodeDecode 操作をラップするクラスを作成するファクトリ メソッド。

パラメーター
範囲現在のスコープ
入力デコードされるテキスト。任意の形状にすることができます。出力は char 値のベクトルに平坦化されることに注意してください。
入力エンコーディング入力文字列のテキストエンコーディング。これは、ICU ucnv アルゴリズム コンバーターでサポートされているエンコーディングのいずれかです。例: 「UTF-16」、「US ASCII」、「UTF-8」。
オプションオプションの属性値を持ちます
戻り値
  • UnicodeDecode の新しいインスタンス

public static UnicodeDecode.Optionsエラー(文字列エラー)

パラメーター
エラー入力に無効な形式が見つかった場合のエラー処理ポリシー。 'strict' の値を指定すると、無効な入力形式に対して操作で InvalidArgument エラーが生成されます。値「replace」(デフォルト) を指定すると、入力内の無効な書式設定が「replacement_char」コードポイントで置き換えられます。値が「ignore」の場合、操作では入力内の無効な書式設定がスキップされ、対応する出力文字は生成されません。

public static UnicodeDecode.Options replaceControlCharacters (ブール値 replaceControlCharacters)

パラメーター
制御文字を置き換えるC0 制御文字 (00 ~ 1F) を `replacement_char` に置き換えるかどうか。デフォルトは false です。

public static UnicodeDecode.Options replaceChar (Long replaceChar)

パラメーター
置換文字`errors='replace'` の場合に、入力内の無効な書式設定の代わりに使用される置換文字コードポイント。任意の有効な Unicode コードポイントを使用できます。デフォルト値は、デフォルトの Unicode 置換文字 0xFFFD または U+65533 です。)

public Output <T> rowSplits ()

行分割を含む 1D int32 テンソル。