รวมตัวฝังข้อความ

ตัวฝังข้อความอนุญาตให้ฝังข้อความลงในเวกเตอร์คุณลักษณะมิติสูงซึ่งแสดงถึงความหมายเชิงความหมาย ซึ่งสามารถนำไปเปรียบเทียบกับเวกเตอร์คุณลักษณะของข้อความอื่นเพื่อประเมินความคล้ายคลึงกันทางความหมายได้

ตรงข้ามกับ การค้นหาข้อความ ตัวฝังข้อความช่วยให้สามารถคำนวณความคล้ายคลึงกันระหว่างข้อความได้ทันที แทนที่จะค้นหาผ่านดัชนีที่กำหนดไว้ล่วงหน้าที่สร้างจากคลังข้อมูล

ใช้ Task Library TextEmbedder API เพื่อปรับใช้การฝังข้อความแบบกำหนดเองในแอปมือถือของคุณ

คุณสมบัติที่สำคัญของ TextEmbedder API

  • การประมวลผลข้อความอินพุต รวมถึงการสร้างโทเค็น Wordpiece ในกราฟหรือนอกกราฟหรือ Sentencepiece บนข้อความอินพุต

  • ฟังก์ชันยูทิลิตี้ในตัวเพื่อคำนวณ ความคล้ายคลึงของโคไซน์ ระหว่างเวกเตอร์ฟีเจอร์

โมเดลการฝังข้อความที่รองรับ

รับประกันว่าโมเดลต่อไปนี้จะเข้ากันได้กับ TextEmbedder API

เรียกใช้การอนุมานใน C ++

// Initialization.
TextEmbedderOptions options:
options.mutable_base_options()->mutable_model_file()->set_file_name(model_path);
std::unique_ptr<TextEmbedder> text_embedder = TextEmbedder::CreateFromOptions(options).value();

// Run inference with your two inputs, `input_text1` and `input_text2`.
const EmbeddingResult result_1 = text_embedder->Embed(input_text1);
const EmbeddingResult result_2 = text_embedder->Embed(input_text2);

// Compute cosine similarity.
double similarity = TextEmbedder::CosineSimilarity(
    result_1.embeddings[0].feature_vector()
    result_2.embeddings[0].feature_vector());

ดู ซอร์สโค้ด สำหรับตัวเลือกเพิ่มเติมในการกำหนดค่า TextEmbedder

เรียกใช้การอนุมานใน Python

ขั้นตอนที่ 1: ติดตั้งแพ็คเกจ Pypi รองรับ TensorFlow Lite

คุณสามารถติดตั้งแพ็คเกจ Pypi รองรับ TensorFlow Lite ได้โดยใช้คำสั่งต่อไปนี้:

pip install tflite-support

ขั้นตอนที่ 2: การใช้แบบจำลอง

from tflite_support.task import text

# Initialization.
text_embedder = text.TextEmbedder.create_from_file(model_path)

# Run inference on two texts.
result_1 = text_embedder.embed(text_1)
result_2 = text_embedder.embed(text_2)

# Compute cosine similarity.
feature_vector_1 = result_1.embeddings[0].feature_vector
feature_vector_2 = result_2.embeddings[0].feature_vector
similarity = text_embedder.cosine_similarity(
    result_1.embeddings[0].feature_vector, result_2.embeddings[0].feature_vector)

ดู ซอร์สโค้ด สำหรับตัวเลือกเพิ่มเติมในการกำหนดค่า TextEmbedder

ตัวอย่างผลลัพธ์

ความคล้ายคลึงกันของโคไซน์ระหว่างเวกเตอร์คุณลักษณะที่ทำให้เป็นมาตรฐานจะให้คะแนนระหว่าง -1 ถึง 1 ยิ่งสูงยิ่งดี กล่าวคือ ความคล้ายคลึงกันของโคไซน์เป็น 1 หมายความว่าเวกเตอร์ทั้งสองเหมือนกัน

Cosine similarity: 0.954312

ลองใช้ เครื่องมือสาธิต CLI ง่ายๆ สำหรับ TextEmbedder ด้วยโมเดลและข้อมูลการทดสอบของคุณเอง

ข้อกำหนดความเข้ากันได้ของโมเดล

TextEmbedder API คาดว่าจะมีโมเดล TFLite พร้อมด้วย ข้อมูลเมตาของโมเดล TFLite ที่บังคับ

รองรับโมเดลหลักสามประเภท:

  • โมเดลที่ใช้ BERT (ดู ซอร์สโค้ด สำหรับรายละเอียดเพิ่มเติม):

    • เทนเซอร์อินพุต 3 ตัวพอดี (kTfLiteString)

      • IDs tensor พร้อมชื่อข้อมูลเมตา "ids"
      • มาสก์เทนเซอร์ พร้อมชื่อข้อมูลเมตา "มาสก์"
      • เทนเซอร์รหัสกลุ่ม พร้อมชื่อข้อมูลเมตา "segment_ids"
    • เทนเซอร์เอาต์พุตตัวเดียว (kTfLiteUInt8/kTfLiteFloat32)

      • ด้วยองค์ประกอบ N ที่สอดคล้องกับมิติ N ของเวกเตอร์คุณลักษณะที่ส่งคืนสำหรับเลเยอร์เอาต์พุตนี้
      • 2 หรือ 4 มิติ เช่น [1 x N] หรือ [1 x 1 x 1 x N]
    • input_process_units สำหรับ Tokenizer ของ Wordpiece/Sentencepiece

  • โมเดลที่ใช้ Universal Sentence Encoder (ดู ซอร์สโค้ด สำหรับรายละเอียดเพิ่มเติม):

    • เทนเซอร์อินพุต 3 ตัวพอดี (kTfLiteString)

      • เทนเซอร์ข้อความค้นหาพร้อมชื่อข้อมูลเมตา "inp_text"
      • เทนเซอร์บริบทการตอบสนอง พร้อมชื่อข้อมูลเมตา "res_context"
      • เทนเซอร์ข้อความตอบกลับพร้อมชื่อข้อมูลเมตา "res_text"
    • เทนเซอร์เอาท์พุต 2 ตัวพอดี (kTfLiteUInt8/kTfLiteFloat32)

      • เทนเซอร์เข้ารหัสข้อความค้นหา พร้อมชื่อข้อมูลเมตา "query_encoding"
      • เทนเซอร์เข้ารหัสการตอบสนอง พร้อมชื่อข้อมูลเมตา "response_encoding"
      • ทั้งสองมีส่วนประกอบ N ที่สอดคล้องกับมิติ N ของเวกเตอร์คุณลักษณะที่ส่งคืนสำหรับเลเยอร์เอาต์พุตนี้
      • ทั้งสองมี 2 หรือ 4 มิติ เช่น [1 x N] หรือ [1 x 1 x 1 x N]
  • โมเดลการฝังข้อความใดๆ ที่มี:

    • เทนเซอร์ข้อความอินพุต (kTfLiteString)
    • เทนเซอร์ฝังเอาต์พุตอย่างน้อยหนึ่งรายการ (kTfLiteUInt8/kTfLiteFloat32)

      • ด้วยองค์ประกอบ N ที่สอดคล้องกับมิติ N ของเวกเตอร์คุณลักษณะที่ส่งคืนสำหรับเลเยอร์เอาต์พุตนี้
      • 2 หรือ 4 มิติ เช่น [1 x N] หรือ [1 x 1 x 1 x N]