Google I/O에 참여해 주셔서 감사합니다. 주문형 모든 세션 보기 주문형 시청

tensorflow :: ops :: 유니 코드

#include <string_ops.h>

입력 텍스트를 소스 인코딩에서 대상 인코딩으로 트랜스 코딩합니다.

요약

입력은 모든 형태의 문자열 텐서입니다. 출력은 트랜스 코딩 된 문자열을 포함하는 동일한 모양의 문자열 텐서입니다. 출력 문자열은 항상 유효한 유니 코드입니다. 입력에 잘못된 인코딩 위치가 포함 된 경우 errors 속성은 이러한 위치를 처리하는 방법에 대한 정책을 설정합니다. 기본 오류 처리 정책을 사용하는 경우 출력에서 ​​잘못된 형식이 replacement_char 됩니다. 오류 정책이 ignore 인 경우 입력의 잘못된 인코딩 위치는 건너 뛰고 출력에 포함되지 않습니다. strict 로 설정하면 잘못된 형식으로 인해 InvalidArgument 오류가 발생합니다.

이 작업은 output_encoding = input_encoding 과 함께 사용되어 입력이 이미 원하는 인코딩에 있더라도 올바른 형식을 적용 할 수 있습니다.

입력에 인코딩을 결정하는 데 필요한 바이트 순서 표시가 접두사로 붙는 경우 (예 : 인코딩이 UTF-16이고 BOM이 빅 엔디안을 나타내는 경우) 해당 BOM이 소비되고 출력으로 내보내지지 않습니다. 입력 인코딩이 명시 적 엔디안 (예 : UTF-16-BE)으로 표시된 경우 BOM은 비 분리 공백으로 해석되고 출력에 보존됩니다 (UTF-8의 경우 항상 포함).

최종 결과는 입력이 명시 적 엔디안으로 표시되는 경우 트랜스 코딩이 소스의 모든 코드 포인트에 충실하다는 것입니다. 명시 적 엔디안으로 표시되지 않은 경우 BOM은 문자열 자체의 일부가 아니라 메타 데이터로 간주되므로 출력에 보존되지 않습니다.

인수 :

  • 범위 : 범위 개체
  • 입력 : 처리 할 텍스트입니다. 어떤 모양도 가질 수 있습니다.
  • input_encoding : 입력 문자열의 텍스트 인코딩. 이것은 ICU ucnv 알고리즘 변환기에서 지원하는 모든 인코딩입니다. 예 : "UTF-16", "US ASCII", "UTF-8" .
  • output_encoding : 출력에 사용할 유니 코드 인코딩입니다. "UTF-8", "UTF-16-BE", "UTF-32-BE" 중 하나 여야합니다. 멀티 바이트 인코딩은 빅 엔디안입니다.

선택적 속성 ( Attrs 참조) :

  • errors : 입력에 잘못된 형식이있는 경우 오류 처리 정책입니다. 'strict'값은 잘못된 입력 형식에 대해 작업에서 InvalidArgument 오류를 생성하도록합니다. 'replace'(기본값) 값은 입력의 유효하지 않은 형식을 replacement_char 코드 포인트로 replacement_char 합니다. 'ignore'값은 입력에서 유효하지 않은 형식을 건너 뛰고 해당 출력 문자를 생성하지 않도록합니다.
  • replacement_char : errors='replace' 경우 입력에서 잘못된 형식 지정 대신 사용할 대체 문자 코드 점입니다. 모든 유효한 유니 코드 코드 포인트를 사용할 수있다. 기본값은 기본 유니 코드 대체 문자는 0xFFFD 또는 U + 65533입니다.)

UTF-8의 경우 ''와 같이 1 바이트로 표현 가능한 대체 문자를 전달하면 유효하지 않은 바이트가 1 바이트 대체로 대체되므로 소스에 대한 문자열 정렬이 유지됩니다. UTF-16-BE 및 UTF-16-LE의 경우 1 바이트 또는 2 바이트 대체 문자는 소스에 대한 바이트 정렬을 유지합니다.

  • replace_control_characters : C0 제어 문자 (00-1F)를 replacement_char 로 바꿀지 여부. 기본값은 거짓입니다.

보고:

  • Output : output_encoding 사용하여 인코딩 된 유니 코드 텍스트를 포함하는 문자열 텐서.

생성자와 소멸자

UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding)
UnicodeTranscode (const :: tensorflow::Scope & scope, :: tensorflow::Input input, StringPiece input_encoding, StringPiece output_encoding, const UnicodeTranscode::Attrs & attrs)

공용 속성

operation
output

공공 기능

node () const
::tensorflow::Node *
operator::tensorflow::Input () const
operator::tensorflow::Output () const

공개 정적 함수

Errors (StringPiece x)
ReplaceControlCharacters (bool x)
ReplacementChar (int64 x)

구조체

tensorflow :: ops :: UnicodeTranscode :: Attrs

UnicodeTranscode에 대한 선택적 속성 설정자.

공용 속성

조작

Operation operation

산출

::tensorflow::Output output

공공 기능

유니 코드

 UnicodeTranscode(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input input,
  StringPiece input_encoding,
  StringPiece output_encoding
)

유니 코드

 UnicodeTranscode(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input input,
  StringPiece input_encoding,
  StringPiece output_encoding,
  const UnicodeTranscode::Attrs & attrs
)

마디

::tensorflow::Node * node() const 

연산자 :: tensorflow :: 입력

 operator::tensorflow::Input() const 

연산자 :: tensorflow :: 출력

 operator::tensorflow::Output() const 

공개 정적 함수

오류

Attrs Errors(
  StringPiece x
)

ReplaceControlCharacters

Attrs ReplaceControlCharacters(
  bool x
)

ReplacementChar

Attrs ReplacementChar(
  int64 x
)