StringNGrams

공개 최종 클래스 StringNGrams

비정형 문자열 데이터에서 ngram을 생성합니다.

이 작업은 문자열만 포함하는 1개의 비정형 차원이 있는 비정형 텐서를 허용하고 가장 안쪽 축을 따라 결합된 해당 문자열의 ngram을 포함하는 1개의 비정형 차원이 있는 비정형 텐서를 출력합니다.

공개 방법

static <T는 숫자를 확장합니다> StringNGrams <T>
생성 ( 범위 범위, 피연산자 <String> 데이터, 피연산자 <T> dataSplits, 문자열 구분 기호, List<Long> ngramWidths, 문자열 leftPad, 문자열 rightPad, Long padWidth, Boolean presentsShortSequences)
새로운 StringNGrams 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.
출력 <문자열>
엔그램 ()
출력 ngram의 비정형 텐서 값 텐서.
출력 <T>
ngrams분할 ()
출력 ngram 비정형 텐서의 분할 텐서.

상속된 메서드

공개 방법

public static StringNGrams <T> create ( 범위 범위, 피연산자 <String> 데이터, 피연산자 <T> dataSplits, 문자열 구분 기호, List<Long> ngramWidths, 문자열 leftPad, 문자열 rightPad, Long padWidth, Boolean presentsShortSequences)

새로운 StringNGrams 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.

매개변수
범위 현재 범위
데이터 ngram을 만들 비정형 문자열 텐서의 값 텐서입니다. 1D 문자열 텐서여야 합니다.
데이터분할 ngram을 만들기 위해 비정형 문자열 텐서의 분할 텐서를 사용합니다.
분리 기호 토큰 요소 사이에 추가할 문자열입니다. 구분 기호가 없으면 ""를 사용하세요.
ngram 폭 생성할 ngram의 크기입니다.
왼쪽패드 ngram 시퀀스의 왼쪽을 채우는 데 사용할 문자열입니다. pad_width != 0인 경우에만 사용됩니다.
오른쪽패드 ngram 시퀀스의 오른쪽을 채우는 데 사용할 문자열입니다. pad_width != 0인 경우에만 사용됩니다.
패드너비 각 시퀀스의 각 측면에 추가할 패딩 요소 수입니다. 패딩은 이 값에 관계없이 'ngram_widths'-1보다 클 수 없습니다. `pad_width=-1`인 경우 `max(ngram_widths)-1` 요소를 추가합니다.
보고
  • StringNGrams의 새로운 인스턴스

공개 출력 <String> ngrams ()

출력 ngram의 비정형 텐서 값 텐서.

공개 출력 <T> ngramsSplits ()

출력 ngram 비정형 텐서의 분할 텐서.