이 페이지는 Cloud Translation API를 통해 번역되었습니다.
Switch to English

tft.vocabulary

GitHub에서 소스보기

전체 데이터 세트에서 Tensor 의 고유 한 값을 계산합니다.

노트북에 사용

튜토리얼에서 사용

SparseTensor x 에서 가져온 고유 한 값으로, 모든 크기의 Tensor 또는 SparseTensor 가 될 수 있습니다. 고유 값은 x 및 모든 인스턴스의 모든 차원에서 집계됩니다.

토큰 중 하나에 '\ n'또는 '\ r'문자가 포함되어 있거나 비어있는 경우 현재 어휘를 텍스트 파일로 작성 중이므로 폐기됩니다. 이 동작은 향후 수정 / 개선 될 것입니다.

정수 Tensor 가 제공되면 연속 특성에 대한 어휘를 계산하는 것이 적절하지 않기 때문에 의미 유형은 연속 / 숫자가 아닌 범주 형이어야합니다.

고유 값은 빈도를 줄인 다음 사전 사전 순서를 반대로 정렬합니다 (예 : [( 'a', 5), ( 'c', 3), ( 'b', 3)]).

대규모 데이터 세트의 경우 frequency_threshold 또는 top_k를 설정하여 출력 크기와이 작업의 실행 시간을 제어하는 ​​것이 좋습니다.

레이블이 제공되면 상호 정보를 사용하여 레코드에있는 토큰의 존재와 해당 레코드의 레이블 간의 관계를 기반으로 어휘를 필터링합니다. 참고 : 레이블이 제공되는 경우 상호 정보 계산의 의미는 입력의 멀티-핫 표현에 따라 달라 지므로 x 입력은 레코드 당 고유 한 집합이어야합니다. 행당 고유 한 입력 토큰을 갖는 것이 좋지만 빈도 기반 어휘에는 필요하지 않습니다.

특정 키를 커버하는 어휘를 생성하려면 key_fn 하십시오.

"커버리지 어휘"는 두 어휘 "암"의 조합입니다. 어휘의 "표준 암"은 커버리지 인수가없는 동일한 함수 호출에 의해 생성 된 것과 동일합니다. 커버리지를 추가하면 표준 어휘 끝에 추가 항목 만 추가됩니다.

어휘의 "커버리지 암"은 키당 coverage_top_k 가장 자주 사용되는 고유 용어를 취하여 결정됩니다. 용어의 키는 용어에 key_fn 을 적용하여 key_fn 습니다. coverage_frequency_threshold 를 사용하여 어휘의 적용 범위 항목의 빈도를 낮 춥니 다.

이것은 현재 각 어휘 항목 (b / 117796748)에 키가 포함 된 경우에 구현됩니다.

x dtype tf.string 또는 tf.int [8 | 16 | 32 | 64]를 사용하는 범주 / 이산 입력 Tensor 또는 SparseTensor . 입력은 일반적으로 행마다 고유해야합니다 (예 : 단어 / ngram 표현의 백).
top_k 생성 된 어휘를 첫 번째 top_k 요소로 제한하십시오. 없음으로 설정하면 전체 어휘가 생성됩니다.
frequency_threshold 생성 된 어휘를 절대 빈도가 제공된 임계 값보다> = 인 요소로만 제한하십시오. 없음으로 설정하면 전체 어휘가 생성됩니다. 절대 빈도는 해당 요소를 포함하는 인스턴스의 비율이 아니라 데이터 세트에서 요소의 발생 횟수를 의미합니다.
vocab_filename 어휘 파일의 파일 이름입니다. 없음 인 경우 현재 범위에 따라 파일 이름이 선택됩니다. None이 아니라면 주어진 전처리 함수 내에서 고유해야합니다. 참고 파이프 라인을 구현 세부 정보에 복원하려면 다운 스트림 구성 요소에서 vocab_filename을 사용할 때 vocab_filename 설정하십시오.
store_frequency True이면 단어의 빈도가 어휘 파일에 저장됩니다. 레이블이 제공되는 경우 상호 정보가 대신 파일에 저장됩니다. 파일의 각 줄은 '빈도 단어'형식입니다. 참고 : 이것이 True이면 계산 된 어휘를 tft.apply_vocabulary 와 함께 직접 사용할 수 없습니다. 주파수가 어휘의 각 행의 시작 부분에 추가되어 매퍼가 무시하지 않기 때문입니다.
weights (선택 사항) 어휘에 대한 가중치 Tensor . x와 같은 모양이어야합니다.
labels (선택 사항) 어휘에 대해 고밀도 Tensor 에 레이블을 지정합니다. 제공되는 경우 어휘는 빈도가 아닌 레이블이있는 상호 정보를 기반으로 계산됩니다. 레이블은 x와 동일한 배치 치수를 가져야합니다. x가 희소이면 레이블은 행 방향 레이블을 반영하는 1D 텐서 여야합니다. x가 조밀 한 경우 레이블은 행 방향 레이블의 1D 텐서이거나 x와 동일한 모양의 조밀 한 텐서 일 수 있습니다 (예 : 요소 별 레이블). 레이블은 이산 정수 텐서 여야합니다 (레이블이 숫자이면 먼저 버킷 화되어야합니다. 레이블이 문자열이면 정수 어휘를 먼저 적용해야합니다). 참고 : SparseTensor 레이블은 아직 지원되지 않습니다 (b / 134931826). 경고 : 레이블이 제공되면 frequency_threshold 인수는 상호 정보 임계 값 인 부동 소수점 역할을합니다.
use_adjusted_mutual_info true이고 레이블이 제공되면 원시 상호 정보가 아닌 조정 된 정보를 사용하여 어휘를 계산하십시오.
min_diff_from_avg 기능 x 레이블의 MI (또는 AMI)는 개수와 예상 (평균) 개수의 차이가 min_diff_from_average보다 낮을 때마다 0으로 조정됩니다. 이는 작은 MI / AMI 값을 0으로 푸시하는 정규화 매개 변수로 생각할 수 있습니다. 없음 인 경우 데이터 세트의 크기에 따라 기본 매개 변수가 선택됩니다 (계산 _ 추천 _ 분 _diff_from_avg 참조).
coverage_top_k (선택 사항), (실험적) 어휘에 포함 할 키당 최소 요소 수입니다.
coverage_frequency_threshold (선택 사항), (실험적) 주어진 키에 대해 절대 빈도가> =이 임계 값 인 요소로만 어휘의 적용 범위를 제한합니다.
key_fn (선택 사항), (실험적) x 의 단일 항목을 가져와 커버리지 계산을 위해 해당 키를 반환하는 fn입니다. None 이면 커버리지 암이 어휘에 추가되지 않습니다.
fingerprint_shuffle (선택 사항), (실험적) 카운트 대신 지문으로 어휘를 정렬할지 여부. 이것은 훈련 매개 변수 서버의 부하 분산에 유용합니다. Shuffle은 파일을 쓰는 동안에 만 발생하므로 위의 모든 필터 (top_k, frequency_threshold 등)가 여전히 적용됩니다.
name (선택 사항)이 작업의 이름입니다.

x 의 고유 한 값을 포함하는 어휘 파일의 경로 이름입니다.

ValueError top_k 또는 frequency_threshold 가 음수 인 경우. coverage_top_k 또는 coverage_frequency_threshold 가 음수 인 경우. coverage_top_k 또는 coverage_frequency_threshold 가 지정되고 key_fn 은 지정되지 않은 경우. key_fn 이 지정되고 coverage_top_k 도 지정되지 않은 경우