tensorflow :: ops :: 유니 코드
#include <string_ops.h>
입력 텍스트를 소스 인코딩에서 대상 인코딩으로 트랜스 코딩합니다.
요약
입력은 모든 형태의 문자열 텐서입니다. 출력은 트랜스 코딩 된 문자열을 포함하는 동일한 모양의 문자열 텐서입니다. 출력 문자열은 항상 유효한 유니 코드입니다. 입력에 잘못된 인코딩 위치가 포함 된 경우 errors
속성은 이러한 위치를 처리하는 방법에 대한 정책을 설정합니다. 기본 오류 처리 정책을 사용하는 경우 출력에서 잘못된 형식이 replacement_char
됩니다. 오류 정책이 ignore
인 경우 입력의 잘못된 인코딩 위치는 건너 뛰고 출력에 포함되지 않습니다. strict
로 설정하면 잘못된 형식으로 인해 InvalidArgument 오류가 발생합니다.
이 작업은 output_encoding = input_encoding
과 함께 사용되어 입력이 이미 원하는 인코딩에 있더라도 올바른 형식을 적용 할 수 있습니다.
입력에 인코딩을 결정하는 데 필요한 바이트 순서 표시가 접두사로 붙는 경우 (예 : 인코딩이 UTF-16이고 BOM이 빅 엔디안을 나타내는 경우) 해당 BOM이 소비되고 출력으로 내보내지지 않습니다. 입력 인코딩이 명시 적 엔디안 (예 : UTF-16-BE)으로 표시된 경우 BOM은 비 분리 공백으로 해석되고 출력에 보존됩니다 (UTF-8의 경우 항상 포함).
최종 결과는 입력이 명시 적 엔디안으로 표시되는 경우 트랜스 코딩이 소스의 모든 코드 포인트에 충실하다는 것입니다. 명시 적 엔디안으로 표시되지 않은 경우 BOM은 문자열 자체의 일부가 아니라 메타 데이터로 간주되므로 출력에 보존되지 않습니다.
인수 :
- 범위 : 범위 개체
- 입력 : 처리 할 텍스트입니다. 어떤 모양도 가질 수 있습니다.
- input_encoding : 입력 문자열의 텍스트 인코딩. 이것은 ICU ucnv 알고리즘 변환기에서 지원하는 모든 인코딩입니다. 예 :
"UTF-16", "US ASCII", "UTF-8"
. - output_encoding : 출력에 사용할 유니 코드 인코딩입니다.
"UTF-8", "UTF-16-BE", "UTF-32-BE"
중 하나 여야합니다. 멀티 바이트 인코딩은 빅 엔디안입니다.
선택적 속성 ( Attrs
참조) :
- errors : 입력에 잘못된 형식이있는 경우 오류 처리 정책입니다. 'strict'값은 잘못된 입력 형식에 대해 작업에서 InvalidArgument 오류를 생성하도록합니다. 'replace'(기본값) 값은 입력의 유효하지 않은 형식을
replacement_char
코드 포인트로replacement_char
합니다. 'ignore'값은 입력에서 유효하지 않은 형식을 건너 뛰고 해당 출력 문자를 생성하지 않도록합니다. - replacement_char :
errors='replace'
경우 입력에서 잘못된 형식 지정 대신 사용할 대체 문자 코드 점입니다. 모든 유효한 유니 코드 코드 포인트를 사용할 수있다. 기본값은 기본 유니 코드 대체 문자는 0xFFFD 또는 U + 65533입니다.)
UTF-8의 경우 ''와 같이 1 바이트로 표현 가능한 대체 문자를 전달하면 유효하지 않은 바이트가 1 바이트 대체로 대체되므로 소스에 대한 문자열 정렬이 유지됩니다. UTF-16-BE 및 UTF-16-LE의 경우 1 바이트 또는 2 바이트 대체 문자는 소스에 대한 바이트 정렬을 유지합니다.
- replace_control_characters : C0 제어 문자 (00-1F)를
replacement_char
로 바꿀지 여부. 기본값은 거짓입니다.
보고:
-
Output
:output_encoding
사용하여 인코딩 된 유니 코드 텍스트를 포함하는 문자열 텐서.
생성자와 소멸자 | |
---|---|
UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding) | |
UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding, const UnicodeTranscode::Attrs & attrs) |
공용 속성 | |
---|---|
operation | |
output |
공공 기능 | |
---|---|
node () const | ::tensorflow::Node * |
operator::tensorflow::Input () const | |
operator::tensorflow::Output () const |
공개 정적 함수 | |
---|---|
Errors (StringPiece x) | |
ReplaceControlCharacters (bool x) | |
ReplacementChar (int64 x) |
구조체 | |
---|---|
tensorflow :: ops :: UnicodeTranscode :: Attrs | UnicodeTranscode에 대한 선택적 속성 설정자. |
공용 속성
조작
Operation operation
산출
::tensorflow::Output output
공공 기능
유니 코드
UnicodeTranscode( const ::tensorflow::Scope & scope, ::tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding )
유니 코드
UnicodeTranscode( const ::tensorflow::Scope & scope, ::tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding, const UnicodeTranscode::Attrs & attrs )
마디
::tensorflow::Node * node() const
연산자 :: tensorflow :: 입력
operator::tensorflow::Input() const
연산자 :: tensorflow :: 출력
operator::tensorflow::Output() const
공개 정적 함수
오류
Attrs Errors( StringPiece x )
ReplaceControlCharacters
Attrs ReplaceControlCharacters( bool x )
ReplacementChar
Attrs ReplacementChar( int64 x )