Skipgram

공개 최종 수업 Skipgram

텍스트 파일을 구문 분석하고 예제 배치를 만듭니다.

중첩 클래스

수업 건너뛰기그램.옵션 Skipgram 의 선택적 속성

공개 방법

정적 건너뛰기
생성 ( 범위 범위, 문자열 파일 이름, 긴 배치 크기, 옵션... 옵션)
새로운 Skipgram 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.
출력 <정수>
현재 에포크 ()
현재 에포크 번호입니다.
출력 <정수>
()
단어 ID의 벡터입니다.
출력 <정수>
라벨 ()
단어 ID의 벡터입니다.
정적 Skipgram.Options
minCount (긴 minCount)
정적 Skipgram.Options
하위 샘플 (부동 하위 샘플)
출력 <긴>
처리된 총 단어 수 ()
지금까지 처리된 총 단어 수입니다.
출력 <정수>
어휘빈도 ()
단어의 빈도.
출력 <문자열>
어휘단어 ()
말뭉치에 있는 단어의 벡터입니다.
정적 Skipgram.Options
windowSize (긴 창 크기)
출력 <긴>
wordPerEpoch ()
데이터 파일의 시대당 단어 수입니다.

상속된 메서드

공개 방법

공개 정적 Skipgram 생성 ( 범위 범위, 문자열 파일 이름, 긴 배치 크기, 옵션... 옵션)

새로운 Skipgram 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.

매개변수
범위 현재 범위
파일 이름 말뭉치의 텍스트 파일 이름입니다.
배치 크기 생산된 배치의 크기입니다.
옵션 선택적 속성 값을 전달합니다.
보고
  • Skipgram의 새로운 인스턴스

공개 출력 <Integer> currentEpoch ()

현재 에포크 번호입니다.

공개 출력 <Integer> 예시 ()

단어 ID의 벡터입니다.

공개 출력 <Integer> 라벨 ()

단어 ID의 벡터입니다.

공개 정적 Skipgram.Options minCount (Long minCount)

매개변수
최소 개수 어휘에 포함될 최소 단어 수입니다.

공개 정적 Skipgram.Options 하위 샘플 (부동 하위 샘플)

매개변수
하위 샘플 단어 발생에 대한 임계값입니다. 더 높은 빈도로 나타나는 단어는 무작위로 다운샘플링됩니다. 비활성화하려면 0으로 설정합니다.

공개 출력 <Long> totalWordsProcessed ()

지금까지 처리된 총 단어 수입니다.

공개 출력 <Integer> vocabFreq ()

단어의 빈도. 오름차순이 아닌 순서로 정렬되었습니다.

공개 출력 <String> vocabWord ()

말뭉치에 있는 단어의 벡터입니다.

public static Skipgram.Options windowSize (긴 windowSize)

매개변수
창크기 대상의 왼쪽과 오른쪽을 예측할 단어 수입니다.

공개 출력 <Long> wordPerEpoch ()

데이터 파일의 시대당 단어 수입니다.