GenerateVocabRemapping

lớp cuối cùng công khai TạoVocabRemapping

Đưa ra một đường dẫn đến các tệp từ vựng mới và cũ, trả về một Tensor ánh xạ lại của

length `num_new_vocab`, trong đó `remapping[i]` chứa số hàng trong từ vựng cũ tương ứng với hàng `i` trong từ vựng mới (bắt đầu từ dòng `new_vocab_offset` và lên đến các thực thể `num_new_vocab`) hoặc `- 1` nếu mục `i` trong từ vựng mới không có trong từ vựng cũ. Từ vựng cũ bị hạn chế ở các mục `old_vocab_size` đầu tiên nếu `old_vocab_size` không phải là giá trị mặc định là -1.

`num_vocab_offset` cho phép sử dụng trong trường hợp biến được phân vùng và thường phải được đặt thông qua việc kiểm tra thông tin phân vùng. Định dạng của tệp phải là tệp văn bản, mỗi dòng chứa một thực thể duy nhất trong từ vựng.

Ví dụ: với `new_vocab_file` một tệp văn bản chứa từng thành phần sau trên một dòng: `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1`, ánh xạ lại được trả về sẽ là `[0, -1, 2]`.

Op cũng trả về số lượng mục trong từ vựng mới có trong từ vựng cũ, được sử dụng để tính số lượng giá trị cần khởi tạo trong ánh xạ lại ma trận trọng số

Chức năng này có thể được sử dụng để ánh xạ lại cả từ vựng hàng (thường là tính năng) và từ vựng cột (thường là lớp) từ các điểm kiểm tra TensorFlow. Lưu ý rằng logic phân vùng dựa trên các từ vựng liền kề tương ứng với các biến được phân vùng theo div. Hơn nữa, ánh xạ lại cơ bản sử dụng IndexTable (trái ngược với CuckooTable không chính xác), vì vậy mã máy khách nên sử dụng index_table_from_file() tương ứng như khung FeatureColumn (ngược lại với tf.feature_to_id(), sử dụng CuckooTable).

Các lớp lồng nhau

lớp học TạoVocabRemapping.Options Các thuộc tính tùy chọn cho GenerateVocabRemapping

Hằng số

Sợi dây OP_NAME Tên của op này, được biết đến bởi công cụ lõi TensorFlow

Phương pháp công khai

Tạo bản đồ lại từ vựng tĩnh
tạo ( Phạm vi phạm vi, Toán hạng < TString > newVocabFile, Toán hạng < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Tùy chọn... tùy chọn)
Phương thức xuất xưởng để tạo một lớp bao gồm thao tác TạoVocabRemapping mới.
Đầu ra < TInt32 >
numHiện tại ()
Số mục từ vựng mới được tìm thấy trong từ vựng cũ.
tĩnh GeneVocabRemapping.Options
oldVocabSize (Kích thước oldVocabSize dài)
Đầu ra < TInt64 >
ánh xạ lại ()
Một Tensor có độ dài num_new_vocab trong đó phần tử tại chỉ mục i bằng ID cũ ánh xạ tới ID mới i.

Phương pháp kế thừa

Hằng số

Chuỗi cuối cùng tĩnh công khai OP_NAME

Tên của op này, được biết đến bởi công cụ lõi TensorFlow

Giá trị không đổi: "GenerateVocabRemapping"

Phương pháp công khai

public static GeneraVocabRemapping tạo ( Phạm vi phạm vi, Toán hạng < TString > newVocabFile, Toán hạng < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Tùy chọn... tùy chọn)

Phương thức xuất xưởng để tạo một lớp bao gồm thao tác TạoVocabRemapping mới.

Thông số
phạm vi phạm vi hiện tại
tập tin từ vựng mới Đường dẫn tới file từ vựng mới.
tập tin từ vựng cũ Đường dẫn tới file vocab cũ.
từ vựng mớiOffset Có bao nhiêu mục trong file vocab mới để bắt đầu đọc.
numNewTừ vựng Số mục trong tệp từ vựng mới cần ánh xạ lại.
tùy chọn mang các giá trị thuộc tính tùy chọn
Trả lại
  • một phiên bản mới của GenerationVocabRemapping

Đầu ra công khai < TInt32 > numPresent ()

Số mục từ vựng mới được tìm thấy trong từ vựng cũ.

public static generateVocabRemapping.Options oldVocabSize (Long oldVocabSize)

Thông số
oldVocabKích thước Số mục trong tệp từ vựng cũ cần xem xét. Nếu -1, hãy sử dụng toàn bộ từ vựng cũ.

Đầu ra công khai < TInt64 > ánh xạ lại ()

Một Tensor có độ dài num_new_vocab trong đó phần tử tại chỉ mục i bằng ID cũ ánh xạ tới ID mới i. Phần tử này là -1 đối với bất kỳ ID mới nào không được tìm thấy trong từ vựng cũ.