ตัวฝังข้อความอนุญาตให้ฝังข้อความลงในเวกเตอร์คุณลักษณะที่มีมิติสูงซึ่งแสดงถึงความหมายเชิงความหมาย ซึ่งสามารถนำไปเปรียบเทียบกับเวกเตอร์คุณลักษณะของข้อความอื่นๆ เพื่อประเมินความคล้ายคลึงของความหมายได้
ตรงข้ามกับการ ค้นหา ข้อความ โปรแกรมฝังข้อความช่วยให้คำนวณความคล้ายคลึงกันระหว่างข้อความได้ทันที แทนที่จะค้นหาผ่านดัชนีที่กำหนดไว้ล่วงหน้าซึ่งสร้างจากคลังข้อมูล
ใช้ Task Library TextEmbedder
API เพื่อปรับใช้ตัวฝังข้อความที่กำหนดเองในแอพมือถือของคุณ
คุณสมบัติหลักของ TextEmbedder API
การประมวลผลข้อความป้อนเข้า ซึ่งรวมถึงการ สร้างโทเค็น Wordpiece หรือ Sentencepiece ในกราฟหรือนอกกราฟบนข้อความที่ป้อน
ฟังก์ชันยูทิลิตี้ในตัวเพื่อคำนวณ ความคล้ายคลึงของโคไซน์ ระหว่างเวกเตอร์คุณลักษณะ
รุ่นตัวฝังข้อความที่รองรับ
รุ่นต่อไปนี้รับประกันว่าจะเข้ากันได้กับ TextEmbedder
API
โมเดลแบบกำหนดเองที่ตรงตาม ข้อกำหนดความเข้ากันได้ ของโมเดล
เรียกใช้การอนุมานใน C++
// Initialization.
TextEmbedderOptions options:
options.mutable_base_options()->mutable_model_file()->set_file_name(model_path);
std::unique_ptr<TextEmbedder> text_embedder = TextEmbedder::CreateFromOptions(options).value();
// Run inference with your two inputs, `input_text1` and `input_text2`.
const EmbeddingResult result_1 = text_embedder->Embed(input_text1);
const EmbeddingResult result_2 = text_embedder->Embed(input_text2);
// Compute cosine similarity.
double similarity = TextEmbedder::CosineSimilarity(
result_1.embeddings[0].feature_vector()
result_2.embeddings[0].feature_vector());
ดู ซอร์สโค้ด สำหรับตัวเลือกเพิ่มเติมในการกำหนดค่า TextEmbedder
เรียกใช้การอนุมานใน Python
ขั้นตอนที่ 1: ติดตั้งแพ็คเกจ TensorFlow Lite Support Pypi
คุณสามารถติดตั้งแพ็คเกจ TensorFlow Lite Support Pypi ได้โดยใช้คำสั่งต่อไปนี้:
pip install tflite-support
ขั้นตอนที่ 2: การใช้โมเดล
from tflite_support.task import text
# Initialization.
text_embedder = text.TextEmbedder.create_from_file(model_path)
# Run inference on two texts.
result_1 = text_embedder.embed(text_1)
result_2 = text_embedder.embed(text_2)
# Compute cosine similarity.
feature_vector_1 = result_1.embeddings[0].feature_vector
feature_vector_2 = result_2.embeddings[0].feature_vector
similarity = text_embedder.cosine_similarity(
result_1.embeddings[0].feature_vector, result_2.embeddings[0].feature_vector)
ดู ซอร์สโค้ด สำหรับตัวเลือกเพิ่มเติมในการกำหนดค่า TextEmbedder
ตัวอย่างผลลัพธ์
ความคล้ายคลึงของโคไซน์ระหว่างเวกเตอร์ลักษณะปกติที่ทำให้เป็นมาตรฐานจะส่งกลับคะแนนระหว่าง -1 ถึง 1 สูงกว่าจะดีกว่า กล่าวคือ ความคล้ายคลึงของโคไซน์ที่ 1 หมายความว่าเวกเตอร์ทั้งสองเหมือนกัน
Cosine similarity: 0.954312
ลองใช้ เครื่องมือสาธิต CLI อย่างง่ายสำหรับ TextEmbedder ด้วยแบบจำลองและข้อมูลทดสอบของคุณเอง
ข้อกำหนดความเข้ากันได้ของรุ่น
TextEmbedder
API คาดหวังโมเดล TFLite ที่มีข้อมูลเมตาของ โมเดล TFLite บังคับ
รองรับโมเดลหลักสามประเภท:
โมเดลที่ใช้ BERT (ดู ซอร์สโค้ด สำหรับรายละเอียดเพิ่มเติม):
เทนเซอร์อินพุต 3 ตัว (kTfLiteString)
- ID เทนเซอร์ที่มีชื่อข้อมูลเมตา "id"
- มาสก์เทนเซอร์พร้อมชื่อเมทาดาทา "มาสก์"
- Segment ID เทนเซอร์ที่มีชื่อข้อมูลเมตา "segment_ids"
เทนเซอร์เอาต์พุตหนึ่งตัว (kTfLiteUInt8/kTfLiteFloat32)
- ด้วยองค์ประกอบ
N
ที่สอดคล้องกับมิติN
ของเวกเตอร์คุณลักษณะที่ส่งคืนสำหรับเลเยอร์เอาต์พุตนี้ - ทั้ง 2 หรือ 4 มิติ เช่น
[1 x N]
หรือ[1 x 1 x 1 x N]
- ด้วยองค์ประกอบ
input_process_units สำหรับ Wordpiece/Sentencepiece Tokenizer
โมเดลที่ใช้ตัวเข้ารหัสประโยคสากล (ดู ซอร์สโค้ด สำหรับรายละเอียดเพิ่มเติม):
เทนเซอร์อินพุต 3 ตัว (kTfLiteString)
- ข้อความค้นหาเทนเซอร์ที่มีชื่อข้อมูลเมตา "inp_text"
- การตอบสนองบริบทเทนเซอร์ พร้อมชื่อข้อมูลเมตา "res_context"
- เทนเซอร์ข้อความตอบกลับพร้อมชื่อข้อมูลเมตา "res_text"
เทนเซอร์เอาต์พุต 2 ตัว (kTfLiteUInt8/kTfLiteFloat32)
- เทนเซอร์การเข้ารหัสข้อความค้นหาด้วยชื่อข้อมูลเมตา "query_encoding"
- เทนเซอร์การเข้ารหัสการตอบสนองด้วยชื่อข้อมูลเมตา "response_encoding"
- ทั้งที่มีองค์ประกอบ
N
ที่สอดคล้องกับมิติN
ของเวกเตอร์คุณลักษณะที่ส่งคืนสำหรับเลเยอร์เอาต์พุตนี้ - ทั้งที่มีขนาด 2 หรือ 4 เช่น
[1 x N]
หรือ[1 x 1 x 1 x N]
โมเดลตัวฝังข้อความใดๆ ที่มี:
- เทนเซอร์ข้อความอินพุต (kTfLiteString)
เทนเซอร์ฝังเอาต์พุตอย่างน้อยหนึ่งตัว (kTfLiteUInt8/kTfLiteFloat32)
- ด้วยองค์ประกอบ
N
ที่สอดคล้องกับมิติN
ของเวกเตอร์คุณลักษณะที่ส่งคืนสำหรับเลเยอร์เอาต์พุตนี้ - ทั้ง 2 หรือ 4 มิติ เช่น
[1 x N]
หรือ[1 x 1 x 1 x N]
- ด้วยองค์ประกอบ