این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

تماس های سفارشی XLA

این سند نحوه نوشتن و استفاده از تماس های سفارشی XLA را شرح می دهد. تماس‌های سفارشی به شما امکان می‌دهند کدهای نوشته شده به زبان برنامه‌نویسی مانند C++ یا CUDA را از یک برنامه XLA فراخوانی کنید.

احتیاط: تماس‌های سفارشی یکی از ویژگی‌های سطح پایین کاربر قدرتمند هستند. با استفاده از تماس های سفارشی، به راحتی می توان برنامه خود را به روش هایی با اشکال زدایی (و حتی به سختی قابل توجه) شکست. شما نباید از تماس‌های سفارشی استفاده کنید، مگر اینکه خودتان آماده باشید که در صورت بروز مشکل، XLA را اشکال‌زدایی کنید، و در صورت بروز مشکل، باید انتظار کمک نسبتاً کمتری از توسعه‌دهندگان XLA داشته باشید.

احتیاط: API/ABI تماس سفارشی در حال حاضر پایدار نیست. ما قصد نداریم آن را به طرز عجیبی تغییر دهیم، اما ممکن است تغییر کند. برخی از تغییرات احتمالی آینده در زیر توضیح داده شده است.

احتیاط: نام‌های قابل مشاهده HLO توابع ثبت‌شده با API ماکروهای فراخوان سفارشی به فضای نام C++ احترام نمی‌گذارند. در نتیجه، برخورد تصادفی از توابع ثبت شده توسط کتابخانه های مختلف کاملاً ممکن است! API چنین ثبت‌های تکراری را رد می‌کند، اما برای جلوگیری از مشکلات در پروژه‌های بزرگ، ایمن‌ترین گزینه این است که تمام ارجاعات به توابع را در هر دو ماکرو ثبت نام XLA_REGISTER_CUSTOM_CALL و مراجع هدف تماس سفارشی با فضای نام کاملاً واجد شرایط قرار دهید یا از فاصله‌گذاری نام به سبک C به طور مستقیم در نام تابع

یک تماس سفارشی روی CPU ایجاد کنید

شما می توانید یک دستورالعمل HLO ایجاد کنید که نشان دهنده یک تماس سفارشی از طریق API مشتری XLA است. برای مثال، کد زیر از یک فراخوانی سفارشی برای محاسبه A[i] = B[i % 128]+ C[i] در CPU استفاده می‌کند. (البته شما می توانید – و باید! – این کار را با HLO معمولی انجام دهید.)

#include "xla/client/xla_builder.h"
#include "xla/service/custom_call_target_registry.h"

void do_it() {
  xla::XlaBuilder b("do_it");
  xla::XlaOp param0 =
      xla::Parameter(&b, 0, xla::ShapeUtil::MakeShape(xla::F32, {128}), "p0");
  xla::XlaOp param1 =
      xla::Parameter(&b, 1, xla::ShapeUtil::MakeShape(xla::F32, {2048}), "p1");
  xla::XlaOp custom_call =
      xla::CustomCall(&b, "do_custom_call", /*operands=*/{param0, param1},
                      /*shape=*/xla::ShapeUtil::MakeShape(xla::F32, {2048}));
}

void do_custom_call(void* out, const void** in) {
  float* out_buf = reinterpret_cast<float*>(out);
  const float* in0 = reinterpret_cast<const float*>(in[0]);
  const float* in1 = reinterpret_cast<const float*>(in[1]);
  for (int i = 0; i < 2048; ++i) {
    out_buf[i] = in0[i % 128] + in1[i];
  }
}
XLA_REGISTER_CUSTOM_CALL_TARGET(do_custom_call, "Host");

توجه داشته باشید که تابع do_custom_call باید ابعاد بافرهایی را که روی آنها کار می کند بداند. در این مثال ما اندازه های 128 و 2048 را کد سختی می کنیم. اگر نمی خواهید این کار را انجام دهید، می توانید ابعاد را به عنوان پارامتر در تماس قرار دهید.

یک تماس سفارشی در GPU ایجاد کنید

چارچوب فراخوانی سفارشی GPU تا حدودی با CPU متفاوت است. در اینجا یک مثال CUDA وجود دارد که همان محاسبات ( A[i] = B[i % 128] + C[i] ) را مانند کد CPU بالا انجام می‌دهد.

void do_it() { /* same implementation as above */ }

__global__ custom_call_kernel(const float* in0, const float* in1, float* out) {
  size_t idx = blockIdx.x * blockDim.x + threadIdx.x;
  out[idx] = in0[idx % 128] + in1[idx];
}

void do_custom_call(CUstream stream, void** buffers,
                    const char* opaque, size_t opaque_len) {
  const float* in0 = reinterpret_cast<const float*>(buffers[0]);
  const float* in1 = reinterpret_cast<const float*>(buffers[1]);
  float* out = reinterpret_cast<float*>(buffers[2]);

  const int64_t block_dim = 64;
  const int64_t grid_dim = 2048 / block_dim;
  custom_call_kernel<<<grid_dim, block_dim,
                       /*dynamic_shared_mem_bytes=*/0, stream>>>(in0, in1, out);
}
XLA_REGISTER_CUSTOM_CALL_TARGET(do_custom_call, "CUDA");

ابتدا توجه کنید که تابع فراخوانی سفارشی GPU هنوز هم تابعی است که روی CPU اجرا می شود . تابع do_custom_call CPU مسئول صف بندی کار روی GPU است. در اینجا یک هسته CUDA راه اندازی می کند، اما می تواند کار دیگری نیز انجام دهد، مانند فراخوانی cuBLAS.

buffers آرایه ای از اشاره گرها هستند که روی هاست زندگی می کنند و هر عنصری که حاوی آن است به حافظه دستگاه (یعنی GPU) اشاره می کند. پارامترها اول و سپس مقدار خروجی می آیند. این به طور قابل توجهی با قرارداد فراخوانی CPU، که دارای دو پارامتر، ins و out است، متفاوت است. کنوانسیون فراخوانی GPU این امکان را فراهم می‌کند که ورودی‌ها/خروجی‌های تاپلی شکل را به طور موثر مدیریت کنید.

همانطور که در مثال CPU، ما اندازه بافر ورودی و خروجی را در تماس سفارشی خود کدگذاری کردیم. با این حال، برخلاف مورد CPU، انتقال اندازه بافر به عنوان عملوند به فراخوانی سفارشی به خوبی کار نخواهد کرد. معمولاً ما به اندازه‌های بافری که در CPU در دسترس است نیاز داریم (مثلاً هنگام راه‌اندازی یک هسته، باید ابعاد بلوک/شبکه را برای استفاده بدانیم). اما اگر بخواهیم اندازه های بافر را به عنوان عملوند به فراخوانی سفارشی خود منتقل کنیم، مقادیر آنها در حافظه GPU زندگی می کنند. پس از آن باید در شروع عملیات خود یک memcpy همزمان گران قیمت از دستگاه به میزبان انجام دهیم تا اندازه ها را بخوانیم.

برای اینکه بتوانید در این مورد کار کنید، پارامتر opaque را ارائه می کنیم. هنگام ایجاد تماس سفارشی، می توانید این را روی یک رشته دلخواه از بایت ها تنظیم کنید:

std::string opaque = "...";
xla::CustomCall(&b, "do_custom_call", /*operands=*/{param0, param1},
                /*output_shape=*/xla::ShapeUtil::MakeShape(xla::F32, {2048}),
                opaque);

از آنجایی که xla::Shape یک نمایش بافر پروتکل دارد، می‌توانید این پروتوی سریالی را در داخل opaque ذخیره کنید و آن را در فراخوانی سفارشی GPU خود از حالت سریال خارج کنید. البته توجه داشته باشید که اگرچه xla::ShapeProto اغلب تغییر نمی کند، اما تغییر می کند . گزارش Git را بررسی کنید تا ببینید در گذشته چگونه تغییر کرده است.

سیگنال دادن به یک خطا

اگر تماس سفارشی شما با خطا مواجه شد، می‌توانید با استفاده از امضای زیر برای عملکرد خود، خطا را به زمان اجرای XLA (به‌جای خراب شدن یا برگرداندن مطالب مزخرف در بافرهای خروجی) علامت بزنید:

روی CPU:

#include "xla/service/custom_call_status.h"

void do_custom_call(void* out, const void** in, XlaCustomCallStatus* status);

روی پردازنده گرافیکی:

#include "xla/service/custom_call_status.h"

void do_custom_call(CUstream stream, void** buffers, const char* opaque,
                    size_t opaque_len, xla::XlaCustomCallStatus* status);

می‌توانید با استفاده از XlaCustomCallStatusSetFailure علامت خرابی بدهید، به عنوان مثال:

void do_custom_call(void* out, const void** in, XlaCustomCallStatus* status) {
  // ... do some work.

  if (bad_condition) {
    char* error_message = "An error occurred";
    XlaCustomCallStatusSetFailure(status, error_message, strlen(error_message));
    return;
  }

  // ... continue.
}

همچنین می توانید از XlaCustomCallStatusSetSuccess برای نشان دادن موفقیت استفاده کنید، اما XlaCustomCallStatus به طور پیش فرض در وضعیت موفقیت آمیز است، بنابراین نادیده گرفتن کامل آن نیز نشان دهنده موفقیت خواهد بود.

هنگام استفاده از توابع تماس سفارشی با این امضا، باید عملیات custom-call مربوطه را با مجموعه نسخه API مناسب ایجاد کنید، به عنوان مثال:

xla::CustomCall(&b, "do_custom_call", /*operands=*/{param0, param1},
                /*output_shape=*/xla::ShapeUtil::MakeShape(F32, {2048}),
                opaque, /*has_side_effect=*/false,
                /*output_operand_aliasing=*/{}, /*literal=*/nullptr,
                /*schedule=*/xla::CustomCallSchedule::SCHEDULE_NONE,
                /*api_version=*/API_VERSION_STATUS_RETURNING);

توجه: در آینده از همه مشتریان خواسته می شود که توابع تماس سفارشی خود را به نسخه جدید API منتقل کنند و نسخه قدیمی منسوخ خواهد شد. برای تماس‌های سفارشی که نمی‌توانند شکست بخورند، می‌توانید به سادگی پارامتر XlaCustomCallStatus* جدید را اضافه کنید و سپس آن را نادیده بگیرید.

در صورت خرابی، هیچ یک از خروجی های تماس سفارشی استفاده نخواهد شد. زمان اجرا XLA محاسبات را خاتمه می دهد. برای محاسبات HLO امکان بازیابی خطا وجود ندارد (مثلاً با گرفتن و مدیریت آن).

ارسال تاپل ها به تماس های سفارشی

تماس سفارشی زیر را در نظر بگیرید.

using xla::ShapeUtil;
using xla::F32;
Shape p0_shape = ShapeUtil::MakeTuple({
    ShapeUtil::MakeShape(F32, {32}),
    ShapeUtil::MakeTuple({
        ShapeUtil::MakeShape(F32, {64}),
        ShapeUtil::MakeShape(F32, {128}),
    }),
    ShapeUtil::MakeShape(F32, {256}),
});
xla::XlaOp p0 = xla::Parameter(0, p0_shape, "p0");

Shape out_shape = ShapeUtil::MakeTuple({
  ShapeUtil::MakeShape(F32, {512}),
  ShapeUtil::MakeShape(F32, {1024}),
});
xla::CustomCall(&b, "do_custom_call", /*operands=*/{p0}, out_shape);

در هر دو CPU و GPU، یک تاپل در حافظه به عنوان آرایه ای از اشاره گرها نشان داده می شود. در شبه کد C++، پارامتر 0 در بالا به صورت زیر نشان داده شده است.

// In-memory layout of parameter 0 from custom call above. True on both CPU
// and GPU.
float* subbuf0 = new float[32];
float* subbuf1 = new float[64];
float* subbuf2 = new float[128]
float* subbuf3 = new float[256];

void* subtuple = new void*[2];
(*subtuple)[0] = subbuf1;
(*subtuple)[1] = subbuf2;

void* p0 = new void*[3];
(*p0)[0] = subbuf0;
(*p0)[1] = subtuple;
(*p0)[2] = subbuf3;

اگرچه نمایش داخل حافظه تاپل ها در CPU و GPU یکسان است، اما در قراردادهای فراخوانی سفارشی CPU و GPU با آنها متفاوت رفتار می شود.

خروجی ها را به عنوان بافرهای دمایی چند برابر کنید

ورودی‌های چندگانه برای تماس‌های سفارشی راحت هستند، اما به شدت ضروری نیستند. اگر از ورودی‌های تاپل برای تماس‌های سفارشی پشتیبانی نمی‌کردیم، همیشه می‌توانید تاپل‌ها را با استفاده از get-tuple-element قبل از ارسال به تماس سفارشی باز کنید.

از سوی دیگر، خروجی‌های تاپل به شما اجازه می‌دهند کارهایی را انجام دهید که در غیر این صورت نمی‌توانید انجام دهید.

دلیل واضح داشتن خروجی‌های تاپل این است که خروجی‌های تاپل به این صورت است که چگونه یک فراخوانی سفارشی (یا هر عملیات XLA دیگری) چندین آرایه مستقل را برمی‌گرداند.

اما بدیهی است که خروجی تاپل نیز راهی برای دادن حافظه موقت تماس سفارشی شماست. بله، یک خروجی می تواند نشان دهنده یک بافر موقت باشد. در نظر بگیرید، یک بافر خروجی این ویژگی را دارد که op می‌تواند روی آن بنویسد، و بعد از نوشتن روی آن می‌تواند از روی آن بخواند. این دقیقاً همان چیزی است که شما از یک بافر دما می خواهید.

در مثال بالا، فرض کنید می‌خواهیم از F32[1024] به عنوان یک بافر موقت استفاده کنیم. سپس HLO را دقیقاً مانند بالا می نویسیم، و به سادگی هرگز تاپل ایندکس 1 خروجی تماس سفارشی را نمی خوانیم.

تاپل ها در تماس های سفارشی CPU

در کد CPU، یک تابع do_custom_call(const void** ins, void* out) داریم. ins آرایه ای با تنها یک عنصر است که به param0 اشاره می کند. بافرهای فرعی param0 با عدم ارجاع آن اشاره گر و بافرهای فرعی output_tuple با عدم ارجاع out قابل دسترسی هستند.

تاپل ها در تماس های سفارشی GPU

در کد GPU، یک تابع do_custom_call(..., void** buffers, ...) داریم. در این مورد، buffers یک آرایه میزبان از شش نشانگر دستگاه است که یکی برای هر بافر برگ در ورودی/خروجی است. برای تولید لیست مسطح، روی پارامترها و خروجی ها تکرار می کنیم و برای هر کدام یک پیمایش پیش سفارش از شکل آن انجام می دهیم. بطور مشخص:

// Layout of `buffers` parameter to GPU custom call function for custom-call
// above.
buffers[0] == subbuf0
buffers[1] == subbuf1
buffers[2] == subbuf2
buffers[3] == subbuf3
buffers[4] == output_subbuf0
buffers[5] == output_subbuf1