이 페이지는 Cloud Translation API를 통해 번역되었습니다.
Switch to English

tft.compute_and_apply_vocabulary

GitHub에서 소스보기

x 대한 어휘를 생성하고이 어휘를 사용하여 정수에 매핑합니다.

노트북에 사용

튜토리얼에서 사용

토큰 중 하나에 '\ n'또는 '\ r'문자가 포함되어 있거나 비어있는 경우 현재 어휘를 텍스트 파일로 작성하고 있기 때문에 폐기됩니다. 이 동작은 향후 수정 / 개선 될 것입니다.

이 함수는 어휘가 계산되도록합니다. 대규모 데이터 세트의 경우 frequency_threshold 또는 top_k를 설정하여 어휘의 크기와이 작업의 실행 시간을 제어하는 ​​것이 좋습니다.

x tf.string 또는 tf.int [8 | 16 | 32 | 64] 유형의 Tensor 또는 SparseTensor 입니다.
default_value 'num_oov_buckets'이 0보다 크지 않는 한 어휘를 벗어난 값에 사용할 값입니다.
top_k 생성 된 어휘를 첫 번째 top_k 요소로 제한하십시오. 없음으로 설정하면 전체 어휘가 생성됩니다.
frequency_threshold 생성 된 어휘를 절대 빈도가 제공된 임계 값보다 큰 요소로만 제한하십시오. 없음으로 설정하면 전체 어휘가 생성됩니다. 절대 빈도는 해당 요소를 포함하는 인스턴스의 비율이 아니라 데이터 세트에서 요소의 발생 횟수를 의미합니다. 레이블이 제공되고 상호 정보를 사용하여 어휘가 계산되는 경우 레이블이있는 상호 정보가 제공된 임계 값보다 작은 경우 토큰이 필터링됩니다.
num_oov_buckets num_oov_buckets 가 0보다 큰 경우 어휘를 벗어난 토큰을 조회하면 해시를 기반으로 버킷 ID가 반환됩니다. 그렇지 않으면 default_value 가 할당됩니다.
vocab_filename 어휘 파일의 파일 이름입니다. 없음 인 경우이 그래프의 컨텍스트에서 범위 이름을 기반으로하는 이름이 파일 이름으로 사용됩니다. None이 아니라면 주어진 전처리 함수 내에서 고유해야합니다. 참고 : 파이프 라인을 구현 세부 정보에 탄력적으로 적용하려면 다운 스트림 구성 요소에서 vocab_filename을 사용할 때 vocab_filename 설정하십시오.
weights (선택 사항) 어휘에 대한 가중치 Tensor . x와 같은 모양이어야합니다.
labels (선택 사항) 어휘에 대한 레이블의 Tensor . 제공되는 경우 어휘는 빈도가 아닌 레이블이있는 상호 정보를 기반으로 계산됩니다. 레이블은 x와 동일한 배치 치수를 가져야합니다. x가 희소이면 레이블은 행 방향 레이블을 반영하는 1D 텐서 여야합니다. x가 조밀하면 레이블은 행 방향 레이블의 1D 텐서이거나 x와 동일한 모양의 조밀 한 텐서 (즉, 요소 ​​별 레이블) 일 수 있습니다. 레이블은 이산 정수 텐서 여야합니다 (레이블이 숫자이면 먼저 버킷 화되어야합니다. 레이블이 문자열이면 정수 어휘를 먼저 적용해야합니다). 참고 : SparseTensor 레이블은 아직 지원되지 않습니다 (b / 134931826). 경고 : 레이블이 제공되면 frequency_threshold 인수는 상호 정보 임계 값 인 부동 소수점 역할을합니다.
use_adjusted_mutual_info 참이면 조정 된 상호 정보를 사용합니다.
min_diff_from_avg 기능의 상호 정보는 라벨이있는 기능의 개수와 예상 개수의 차이가 min_diff_from_average보다 작을 때마다 0으로 조정됩니다.
coverage_top_k (선택 사항), (실험적) 어휘에 포함 할 키당 최소 요소 수입니다.
coverage_frequency_threshold (선택 사항), (실험적) 주어진 키에 대해 절대 빈도가> =이 임계 값 인 요소로만 어휘의 적용 범위를 제한합니다.
key_fn (선택 사항), (실험적) x 의 단일 항목을 가져와 커버리지 계산을 위해 해당 키를 반환하는 fn입니다. None 이면 커버리지 암이 어휘에 추가되지 않습니다.
fingerprint_shuffle (선택 사항), (실험적) 카운트 대신 지문으로 어휘를 정렬할지 여부. 이것은 훈련 매개 변수 서버의 부하 분산에 유용합니다. 셔플은 파일을 쓰는 동안에 만 발생하므로 위의 모든 필터가 여전히 적용됩니다.
name (선택 사항)이 작업의 이름입니다.

각 문자열 값이 정수로 매핑되는 Tensor 또는 SparseTensor 입니다. 어휘에 나타나는 각 고유 한 문자열 값은 다른 정수에 매핑되며 정수는 0부터 시작하여 연속됩니다. 어휘에없는 문자열 값에는 default_value가 지정됩니다. 또는 num_oov_buckets가 지정된 경우 어휘 밖의 문자열이 [0, vocab_size + num_oov_buckets)의 전체 범위에 대해 [vocab_size, vocab_size + num_oov_buckets)의 값으로 해시됩니다.

ValueError top_k 또는 frequency_threshold 가 음수 인 경우. coverage_top_k 또는 coverage_frequency_threshold 가 음수 인 경우.