ตัวแทน GPU สำหรับ TensorFlow Lite

การใช้หน่วยประมวลผลกราฟิก (GPU) เพื่อรันโมเดล Machine Learning (ML) ของคุณสามารถปรับปรุงประสิทธิภาพของโมเดลและประสบการณ์ผู้ใช้ของแอปพลิเคชันที่เปิดใช้งาน ML ได้อย่างมาก TensorFlow Lite ช่วยให้สามารถใช้ GPU และโปรเซสเซอร์พิเศษอื่นๆ ผ่านไดรเวอร์ฮาร์ดแวร์ที่เรียกว่า delegates การเปิดใช้งาน GPU กับแอปพลิเคชัน TensorFlow Lite ML ของคุณสามารถให้ประโยชน์ดังต่อไปนี้:

ความเร็ว - GPU ได้รับการออกแบบมาเพื่อปริมาณงานสูงสำหรับปริมาณงานแบบขนานขนาดใหญ่ การออกแบบนี้ทำให้เหมาะสมอย่างยิ่งสำหรับ Deep Neural Nets ซึ่งประกอบด้วยตัวดำเนินการจำนวนมาก โดยแต่ละตัวทำงานกับเทนเซอร์อินพุตที่สามารถประมวลผลแบบขนานได้ ซึ่งโดยทั่วไปจะส่งผลให้เวลาแฝงลดลง ในสถานการณ์ที่ดีที่สุด การรันโมเดลของคุณบน GPU อาจทำงานเร็วพอที่จะเปิดใช้งานแอปพลิเคชันแบบเรียลไทม์ที่ไม่เคยทำได้มาก่อน
ประสิทธิภาพการใช้พลังงาน - GPU ดำเนินการคำนวณ ML ในลักษณะที่มีประสิทธิภาพและปรับให้เหมาะสม โดยทั่วไปจะใช้พลังงานน้อยกว่าและสร้างความร้อนน้อยกว่างานเดียวกันที่ทำงานบน CPU

เอกสารนี้ให้ภาพรวมของการรองรับ GPU ใน TensorFlow Lite และการใช้งานขั้นสูงบางอย่างสำหรับโปรเซสเซอร์ GPU สำหรับข้อมูลเฉพาะเพิ่มเติมเกี่ยวกับการใช้งานการรองรับ GPU บนแพลตฟอร์มเฉพาะ โปรดดูคำแนะนำต่อไปนี้:

รองรับการดำเนินงาน GPU ML

มีข้อจำกัดบางประการเกี่ยวกับการดำเนินการของ TensorFlow ML หรือ ops ที่สามารถเร่งความเร็วได้โดยตัวแทน TensorFlow Lite GPU ผู้รับมอบสิทธิ์สนับสนุนการดำเนินการต่อไปนี้ในความแม่นยำแบบโฟลต 16 บิตและ 32 บิต:

ADD
AVERAGE_POOL_2D
CONCATENATION
CONV_2D
DEPTHWISE_CONV_2D v1-2
EXP
FULLY_CONNECTED
LOGICAL_AND
LOGISTIC
LSTM v2 (Basic LSTM only)
MAX_POOL_2D
MAXIMUM
MINIMUM
MUL
PAD
PRELU
RELU
RELU6
RESHAPE
RESIZE_BILINEAR v1-3
SOFTMAX
STRIDED_SLICE
SUB
TRANSPOSE_CONV

ตามค่าเริ่มต้น การดำเนินการทั้งหมดได้รับการสนับสนุนในเวอร์ชัน 1 เท่านั้น การเปิดใช้งาน การสนับสนุนการกำหนดปริมาณ จะเปิดใช้งานเวอร์ชันที่เหมาะสม เช่น ADD v2

การแก้ไขปัญหาการรองรับ GPU

หากตัวแทน GPU ไม่สนับสนุนการดำเนินการบางอย่าง เฟรมเวิร์กจะเรียกใช้กราฟเพียงบางส่วนบน GPU และส่วนที่เหลือบน CPU เนื่องจากการซิงโครไนซ์ CPU/GPU มีค่าใช้จ่ายสูง โหมดการดำเนินการแบบแยกเช่นนี้มักจะส่งผลให้ประสิทธิภาพช้าลงกว่าเมื่อเครือข่ายทั้งหมดทำงานบน CPU เพียงอย่างเดียว ในกรณีนี้ แอปพลิเคชันจะสร้างคำเตือน เช่น:

WARNING: op code #42 cannot be handled by this delegate.

ไม่มีการเรียกกลับสำหรับความล้มเหลวประเภทนี้ เนื่องจากนี่ไม่ใช่ความล้มเหลวรันไทม์จริง เมื่อทดสอบการทำงานของโมเดลของคุณกับตัวแทน GPU คุณควรได้รับการแจ้งเตือนสำหรับคำเตือนเหล่านี้ คำเตือนเหล่านี้จำนวนมากสามารถบ่งชี้ว่าโมเดลของคุณไม่เหมาะที่สุดสำหรับการเร่งความเร็ว GPU และอาจต้องมีการปรับโครงสร้างโมเดลใหม่

ตัวอย่างโมเดล

โมเดลตัวอย่างต่อไปนี้สร้างขึ้นเพื่อใช้ประโยชน์จากการเร่งความเร็ว GPU ด้วย TensorFlow Lite และมีไว้เพื่อใช้อ้างอิงและทดสอบ:

การจัดหมวดหมู่รูปภาพ MobileNet v1 (224x224) - โมเดลการจัดหมวดหมู่รูปภาพที่ออกแบบมาสำหรับแอปพลิเคชันการมองเห็นบนมือถือและแบบฝัง ( แบบอย่าง )
การแบ่งส่วน DeepLab (257x257) - โมเดลการแบ่งส่วนรูปภาพที่กำหนดป้ายกำกับความหมาย เช่น สุนัข แมว รถยนต์ ให้กับทุกพิกเซลในภาพที่ป้อนเข้า ( แบบอย่าง )
การตรวจจับวัตถุ MobileNet SSD - โมเดลการจัดหมวดหมู่รูปภาพที่ตรวจจับวัตถุหลายชิ้นด้วยกล่องขอบ ( แบบอย่าง )
PoseNet สำหรับการประมาณท่าทาง - แบบจำลองการมองเห็นที่ประมาณท่าทางของบุคคลในภาพหรือวิดีโอ ( แบบอย่าง )

การเพิ่มประสิทธิภาพสำหรับ GPU

เทคนิคต่อไปนี้สามารถช่วยให้คุณได้รับประสิทธิภาพที่ดีขึ้นเมื่อใช้งานโมเดลบนฮาร์ดแวร์ GPU โดยใช้ตัวแทน TensorFlow Lite GPU:

ปรับรูปแบบการดำเนินการ - การดำเนินการบางอย่างที่รวดเร็วบน CPU อาจมีต้นทุนสูงสำหรับ GPU บนอุปกรณ์มือถือ การดำเนินการปรับรูปร่างมีค่าใช้จ่ายสูงเป็นพิเศษในการรัน รวมถึง BATCH_TO_SPACE , SPACE_TO_BATCH , SPACE_TO_DEPTH และอื่นๆ คุณควรตรวจสอบการใช้การดำเนินการปรับรูปร่างอย่างใกล้ชิด และพิจารณาว่าอาจนำไปใช้สำหรับการสำรวจข้อมูลหรือการจำลองแบบจำลองของคุณในช่วงแรกๆ เท่านั้น การนำออกสามารถปรับปรุงประสิทธิภาพได้อย่างมาก
ช่องข้อมูลภาพ - บน GPU ข้อมูลเทนเซอร์จะถูกแบ่งออกเป็น 4 ช่อง ดังนั้นการคำนวณบนเทนเซอร์ที่มีรูปร่าง [B,H,W,5] จะทำงานเหมือนกันบนเทนเซอร์ที่มีรูปทรง [B,H,W,8] แต่แย่กว่า [B,H,W,4] อย่างมาก หากฮาร์ดแวร์กล้องที่คุณใช้รองรับเฟรมภาพในรูปแบบ RGBA การป้อนอินพุต 4 แชนเนลจะเร็วขึ้นอย่างมาก เนื่องจากจะหลีกเลี่ยงการคัดลอกหน่วยความจำจาก RGB 3 แชนเนลไปเป็น RGBX 4 แชนเนล
โมเดลที่ปรับให้เหมาะกับมือถือ - เพื่อประสิทธิภาพที่ดีที่สุด คุณควรพิจารณาฝึกตัวแยกประเภทของคุณด้วยสถาปัตยกรรมเครือข่ายที่ปรับให้เหมาะกับมือถือ การเพิ่มประสิทธิภาพสำหรับการอนุมานบนอุปกรณ์สามารถลดเวลาแฝงและการใช้พลังงานได้อย่างมากโดยการใช้ประโยชน์จากคุณสมบัติฮาร์ดแวร์มือถือ

รองรับ GPU ขั้นสูง

คุณสามารถใช้เทคนิคขั้นสูงเพิ่มเติมกับการประมวลผล GPU เพื่อให้โมเดลของคุณมีประสิทธิภาพดียิ่งขึ้น รวมถึงการกำหนดปริมาณและการทำให้เป็นอนุกรม ส่วนต่อไปนี้จะอธิบายเทคนิคเหล่านี้โดยละเอียด

การใช้แบบจำลองเชิงปริมาณ

ในส่วนนี้จะอธิบายว่าตัวแทนของ GPU เร่งความเร็วโมเดลเชิงปริมาณ 8 บิตได้อย่างไร รวมถึงสิ่งต่อไปนี้:

โมเดลที่ได้รับการฝึกอบรมด้วย การฝึกอบรมที่คำนึงถึงเชิงปริมาณ
การหาปริมาณช่วงไดนามิก หลังการฝึกอบรม
การหาปริมาณจำนวนเต็ม หลังการฝึกอบรม

เพื่อเพิ่มประสิทธิภาพการทำงาน ให้ใช้โมเดลที่มีทั้งเทนเซอร์อินพุตและเอาท์พุตทศนิยม

มันทำงานอย่างไร?

เนื่องจากแบ็กเอนด์ GPU รองรับเฉพาะการประมวลผลจุดลอยตัว เราจึงเรียกใช้โมเดลเชิงปริมาณโดยให้ 'มุมมองจุดลอยตัว' ของโมเดลดั้งเดิม ในระดับสูงจะมีขั้นตอนต่อไปนี้:

เทนเซอร์คงที่ (เช่น น้ำหนัก/อคติ) จะถูก de-quantized หนึ่งครั้งในหน่วยความจำ GPU การดำเนินการนี้เกิดขึ้นเมื่อเปิดใช้งานผู้รับมอบสิทธิ์สำหรับ TensorFlow Lite
อินพุตและเอาต์พุต ไปยังโปรแกรม GPU หากมีการกำหนดปริมาณแบบ 8 บิต จะถูกยกเลิกการกำหนดปริมาณและกำหนดปริมาณ (ตามลำดับ) สำหรับการอนุมานแต่ละครั้ง การดำเนินการนี้เสร็จสิ้นบน CPU โดยใช้เคอร์เนลที่ได้รับการปรับปรุงของ TensorFlow Lite
เครื่องจำลองการหาปริมาณ จะถูกแทรกระหว่างการดำเนินการเพื่อเลียนแบบพฤติกรรมเชิงปริมาณ วิธีการนี้จำเป็นสำหรับแบบจำลองที่ ops คาดหวังว่าการเปิดใช้งานจะเป็นไปตามขอบเขตที่เรียนรู้ระหว่างการหาปริมาณ

สำหรับข้อมูลเกี่ยวกับการเปิดใช้งานคุณสมบัตินี้กับผู้รับมอบสิทธิ์ GPU โปรดดูดังต่อไปนี้:

การใช้ โมเดลเชิงปริมาณกับ GPU บน Android
การใช้ โมเดลเชิงปริมาณกับ GPU บน iOS

ลดเวลาการเริ่มต้นด้วยการทำให้เป็นอนุกรม

คุณสมบัติตัวแทน GPU ช่วยให้คุณสามารถโหลดจากโค้ดเคอร์เนลที่คอมไพล์ไว้ล่วงหน้าและข้อมูลโมเดลที่ซีเรียลไลซ์และบันทึกไว้ในดิสก์จากการรันครั้งก่อน วิธีนี้หลีกเลี่ยงการคอมไพล์ใหม่และสามารถลดเวลาเริ่มต้นได้มากถึง 90% การปรับปรุงนี้ทำได้โดยการแลกเปลี่ยนพื้นที่ดิสก์เพื่อประหยัดเวลา คุณสามารถเปิดใช้งานคุณลักษณะนี้ได้โดยใช้ตัวเลือกการกำหนดค่าบางอย่าง ดังที่แสดงในตัวอย่างโค้ดต่อไปนี้:

ซี++

    TfLiteGpuDelegateOptionsV2 options = TfLiteGpuDelegateOptionsV2Default();
    options.experimental_flags |= TFLITE_GPU_EXPERIMENTAL_FLAGS_ENABLE_SERIALIZATION;
    options.serialization_dir = kTmpDir;
    options.model_token = kModelToken;

    auto* delegate = TfLiteGpuDelegateV2Create(options);
    if (interpreter->ModifyGraphWithDelegate(delegate) != kTfLiteOk) return false;

ชวา

    GpuDelegate delegate = new GpuDelegate(
      new GpuDelegate.Options().setSerializationParams(
        /* serializationDir= */ serializationDir,
        /* modelToken= */ modelToken));

    Interpreter.Options options = (new Interpreter.Options()).addDelegate(delegate);

เมื่อใช้คุณสมบัติการทำให้เป็นอนุกรม ตรวจสอบให้แน่ใจว่าโค้ดของคุณสอดคล้องกับกฎการใช้งานเหล่านี้:

จัดเก็บข้อมูลการทำให้เป็นอนุกรมในไดเร็กทอรีที่แอปอื่นไม่สามารถเข้าถึงได้ บนอุปกรณ์ Android ให้ใช้ getCodeCacheDir() ซึ่งชี้ไปยังตำแหน่งที่เป็นส่วนตัวของแอปพลิเคชันปัจจุบัน
โทเค็นโมเดลต้องไม่ซ้ำกันสำหรับอุปกรณ์รุ่นใดรุ่นหนึ่ง คุณสามารถคำนวณโทเค็นโมเดลได้โดยการสร้างลายนิ้วมือจากข้อมูลโมเดลโดยใช้ไลบรารี เช่น farmhash::Fingerprint64