StringNGrams

lớp cuối cùng công khai StringNGrams

Tạo ngram từ dữ liệu chuỗi rời rạc.

Op này chấp nhận một tensor rách rưới có 1 chiều rách rưới chỉ chứa các chuỗi và xuất ra một tensor rách rưới có 1 chiều rách rưới chứa ngram của chuỗi đó, nối dọc theo trục trong cùng.

Phương pháp công khai

tĩnh <T mở rộng Số> ChuỗiNGram <T>
tạo ( Phạm vi phạm vi, Dữ liệu toán hạng <String>, Toán hạng <T> dataSplits, Dấu phân cách chuỗi, Danh sách <Long> ngramWidths, Chuỗi leftPad, Chuỗi rightPad, PadWidth dài, Boolean bảo tồnShortSequences)
Phương thức xuất xưởng để tạo một lớp bao bọc một hoạt động StringNGrams mới.
Đầu ra <Chuỗi>
ngram ()
Các giá trị tensor của ngrams ragged tensor.
Đầu ra <T>
ngramSplits ()
Tensor phân tách của tenxơ ngram đầu ra bị rách.

Phương pháp kế thừa

Phương pháp công khai

public static StringNGrams <T> tạo ( Phạm vi phạm vi , Dữ liệu toán hạng <String>, Toán hạng <T> dataSplits, Dấu phân tách chuỗi, Danh sách <Long> ngramWidths, Chuỗi leftPad, Chuỗi rightPad, PadWidth dài, Boolean bảo tồnShortSequences)

Phương thức xuất xưởng để tạo một lớp bao bọc một hoạt động StringNGrams mới.

Thông số
phạm vi phạm vi hiện tại
dữ liệu Các giá trị tensor của tensor chuỗi rời rạc để tạo ra ngram. Phải là một tensor chuỗi 1D.
chia tách dữ liệu Các tensor phân tách của tensor chuỗi rách rưới để tạo ra ngram.
dải phân cách Chuỗi để nối giữa các phần tử của mã thông báo. Sử dụng "" để không có dấu phân cách.
ngramWidth Kích thước của ngram cần tạo.
leftpad Chuỗi được sử dụng để đệm phía bên trái của chuỗi ngram. Chỉ được sử dụng nếu pad_width != 0.
bàn phím phải Chuỗi được sử dụng để đệm phía bên phải của chuỗi ngram. Chỉ được sử dụng nếu pad_width != 0.
chiều rộng đệm Số phần tử đệm cần thêm vào mỗi bên của mỗi chuỗi. Lưu ý rằng phần đệm sẽ không bao giờ lớn hơn 'ngram_widths'-1 bất kể giá trị này. Nếu `pad_width=-1`, thì hãy thêm phần tử `max(ngram_widths)-1`.
Trả lại
  • một phiên bản mới của StringNGrams

Đầu ra công khai <String> ngrams ()

Các giá trị tensor của ngrams ragged tensor.

Đầu ra công khai <T> ngramsSplits ()

Tensor phân tách của tenxơ ngram đầu ra bị rách.