จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ

เครื่องมือประมวลผลข้อความสำหรับ TensorFlow

import tensorflow as tf
import tensorflow_text as tf_text

def preprocess(vocab_lookup_table, example_text):

  # Normalize text
  tf_text.normalize_utf8(example_text)

  # Tokenize into words
  word_tokenizer = tf_text.WhitespaceTokenizer()
  tokens = word_tokenizer.tokenize(example_text)

  # Tokenize into subwords
  subword_tokenizer = tf_text.WordpieceTokenizer(
       vocab_lookup_table, token_out_type=tf.int64)
  subtokens = subword_tokenizer.tokenize(tokens).merge_dims(1, -1)

  # Apply padding
  padded_inputs = tf_text.pad_model_inputs(subtokens, max_seq_length=16)
  return padded_inputs
เรียกใช้ใน โน้ตบุ๊ก

TensorFlow มีคอลเลกชั่น ops และไลบรารีที่หลากหลายเพื่อช่วยให้คุณทำงานกับอินพุตในรูปแบบข้อความ เช่น สตริงข้อความดิบหรือเอกสาร ไลบรารีเหล่านี้สามารถทำการประมวลผลล่วงหน้าเป็นประจำซึ่งจำเป็นสำหรับโมเดลแบบข้อความ และรวมถึงคุณลักษณะอื่นๆ ที่เป็นประโยชน์สำหรับการสร้างโมเดลตามลำดับ

คุณสามารถแยกคุณลักษณะวากยสัมพันธ์และข้อความเชิงความหมายที่มีประสิทธิภาพจากภายในกราฟ TensorFlow เป็นอินพุตไปยังโครงข่ายประสาทของคุณ

การผสานการประมวลผลล่วงหน้ากับกราฟ TensorFlow มีประโยชน์ดังต่อไปนี้:

  • อำนวยความสะดวกชุดเครื่องมือขนาดใหญ่สำหรับการทำงานกับข้อความ
  • อนุญาตให้รวมเข้ากับชุดเครื่องมือ Tensorflow ขนาดใหญ่เพื่อรองรับโครงการตั้งแต่การกำหนดปัญหาผ่านการฝึกอบรม การประเมิน และการเปิดตัว
  • ลดความซับซ้อนในเวลาเสิร์ฟและป้องกันการเอียงของการฝึกอบรม

นอกเหนือจากข้างต้นแล้ว คุณไม่จำเป็นต้องกังวลว่าการสร้างโทเค็นในการฝึกอบรมจะแตกต่างจากการใช้โทเค็นในการอนุมาน หรือการจัดการสคริปต์การประมวลผลล่วงหน้า

สถาปัตยกรรมแบบจำลอง
เรียนรู้วิธีดำเนินการประมวลผลล่วงหน้าของ BERT แบบ end-to-end กับข้อความ
เรียนรู้วิธีสร้างคำศัพท์ย่อยจากข้อความ
เรียนรู้วิธีจัดประเภทข้อความด้วยแบบจำลอง BERT
จำแนกข้อความโดยใช้ Recurrent Neural Networks
ใช้โมเดล Transformer เพื่อแปลข้อความ
เรียนรู้วิธีแปลข้อความด้วยโมเดลแบบเรียงต่อกัน