ما عملا اضافه کردن در زنان در ML سمپوزیوم اکتبر 19 ثبت نام:

TFX در خطوط لوله بستر نرم افزاری Cloud

معرفی

این آموزش برای معرفی خطوط لوله TensorFlow Extended (TFX) و Cloud AI Platform طراحی شده است و به شما کمک می کند خطوط یادگیری ماشین خود را در Google Cloud ایجاد کنید. این ادغام با TFX ، خطوط لوله بستر های نرم افزاری AI و Kubeflow و همچنین تعامل با TFX در نوت بوک های مشتری را نشان می دهد.

در پایان این آموزش ، شما یک خط لوله ML ایجاد کرده و اجرا خواهید کرد که در Google Cloud میزبانی می شود. شما می توانید نتایج حاصل از هر اجرا را تجسم کنید و نسب آثار ساخته شده را مشاهده کنید.

شما یک روند معمولی توسعه ML را دنبال خواهید کرد ، شروع به بررسی مجموعه داده ، و در پایان با یک خط لوله کامل کار. در طول راه ، روش های اشکال زدایی و به روزرسانی خط لوله و اندازه گیری عملکرد را کشف خواهید کرد.

مجموعه داده تاکسی شیکاگو

تاکسیتاکسی شیکاگو

شما با استفاده از تاکسی سفر مجموعه داده های منتشر شده توسط شهر شیکاگو.

شما می توانید ادامه مطلب در مورد مجموعه داده در Google BigQuery مشاهده . کاوش در مجموعه داده کامل در UI BigQuery مشاهده .

هدف مدل - طبقه بندی باینری

آیا مشتری بیشتر یا کمتر از 20٪ راهنمایی می کند؟

1. یک پروژه Google Cloud راه اندازی کنید

1.a محیط خود را در Google Cloud تنظیم کنید

برای شروع ، به یک حساب Google Cloud نیاز دارید. اگر شما در حال حاضر، جست و خیز پیش به ایجاد پروژه جدید .

  1. رفتن به ابر کنسول گوگل .

  2. با شرایط و ضوابط Google Cloud موافقت کنید

  3. اگر شما می خواهم با یک حساب آزمایشی رایگان شروع، با کلیک بر روی صورت رایگان امتحان کنید (و یا شروع به کار رایگان ).

    1. کشورت را انتخاب کن.

    2. با شرایط خدمات موافقت کنید.

    3. جزئیات صورتحساب را وارد کنید.

      در این مرحله هزینه ای از شما دریافت نمی شود. اگر شما هیچ پروژههای Google Cloud دیگر، شما می توانید این آموزش بدون بیش از تکمیل ردیف گوگل ابر رایگان محدودیت، که شامل حداکثر 8 هسته در حال اجرا در همان زمان.

1.b یک پروژه جدید ایجاد کنید.

  1. از اصلی گوگل ابر داشبورد ، کلیک کنید کرکره پروژه در کنار عنوان پلتفرم ابری گوگل و پروژه جدید را انتخاب کنید.
  2. به پروژه خود نام دهید و سایر جزئیات پروژه را وارد کنید
  3. پس از ایجاد پروژه ، آن را از لیست کشویی پروژه انتخاب کنید.

2. خط لوله بستر های نرم افزاری AI را در یک خوشه جدید Kubernetes تنظیم و استقرار دهید

  1. رفتن به خط لوله خوشه AI بستر های نرم افزاری صفحه.

    در منوی اصلی پیمایش: ≡> بستر های نرم افزاری هوش مصنوعی> خطوط لوله

  2. کلیک کنید + جدید نمونه برای ایجاد یک خوشه.

  3. در صفحه مرور کلی Kubeflow خطوط لوله، پیکربندی را کلیک کنید.

    ممکن است لازم باشد قبل از حرکت چند دقیقه صبر کنید ، در حالی که API های موتور Kubernetes برای شما فعال شده اند.

  4. در صفحه استقرار Kubeflow خط لوله:

    1. یک SELECT منطقه (یا "منطقه") برای خوشه خود را.

    2. بررسی مهم جعبه برچسب اجازه دسترسی به API های ابر زیر است. (این مورد برای دسترسی این خوشه به سایر قسمتهای پروژه شما لازم است. اگر این مرحله را از دست ندهید ، بعداً رفع آن کمی مشکل است.)

    3. روی ایجاد کلیک کنید، و چند دقیقه صبر کنید تا خوشه ای ایجاد شده است.

    4. یک نام و نام نمونه را انتخاب کنید (استفاده از پیش فرض ها خوب است). شما لازم نیست که به بررسی استفاده از ذخیره سازی اداره می شود.

    5. استقرار کلیک کنید، و چند لحظه صبر کنید تا این خط لوله مستقر شده اند. با استقرار خطوط لوله Kubeflow ، شما شرایط خدمات را می پذیرید.

3. نمونه Cloud AI Platform Notebook را تنظیم کنید.

  1. رفتن به بستر های نرم افزاری نوت بوک AI صفحه.

    در فهرست اصلی پیمایش: ≡ -> بستر های نرم افزاری هوش مصنوعی -> نوت بوک ها

  2. در صورت درخواست ، Compute Engine API را فعال کنید.

  3. ایجاد یک نمونه جدید با TensorFlow 2.1 (یا بالاتر) نصب شده است.

    نمونه جدید -> TensorFlow 2.1 -> بدون GPU

    برای ماندن در محدوده لایه آزاد ، تنظیمات پیش فرض را در اینجا قبول نکنید. شما باید تعداد vCPU موجود در این نمونه را از 4 به 2 کاهش دهید:

    1. انتخاب کنید سفارشی را در پایین فرم نوت بوک به عنوان مثال جدید.
    2. پیکربندی ماشین با 1 یا 2 vCPUs را انتخاب کنید.

4. نوت بوک شروع را راه اندازی کنید

  1. رفتن به خط لوله خوشه AI بستر های نرم افزاری صفحه.

    در زیر فهرست اصلی پیمایش: ≡ -> سیستم عامل AI -> خطوط لوله

  2. در خط برای خوشه شما در این آموزش با استفاده از، کلیک باز کردن خط لوله داشبورد.

    داشبورد باز

  3. در صفحه شروع به کار، کلیک باز کردن TF 2.1 نوت بوک.

  4. به عنوان مثال نوت بوک شما با استفاده از این آموزش انتخاب کنید و Continue را بزنید.

    انتخاب نوت بوک

5- کار در Notebook را ادامه دهید

نصب

گرفتن شروع می شود نوت بوک با نصب آغاز شده TFX و Kubeflow خطوط لوله (KFP) به VM که Jupyter آزمایشگاه در حال اجرا در.

سپس بررسی می کند کدام نسخه از TFX نصب شده است ، واردات را انجام می دهد و شناسه پروژه را تنظیم و چاپ می کند:

نسخه پایتون را بررسی کرده و وارد کنید

با خدمات Google Cloud خود ارتباط برقرار کنید

پیکربندی خط لوله به شناسه پروژه شما نیاز دارد که می توانید آن را از طریق دفترچه یادداشت دریافت کرده و به عنوان یک متغیر محیطی تنظیم کنید.

# Read GCP project id from env.
shell_output=!gcloud config list --format 'value(core.project)' 2>/dev/null
GCP_PROJECT_ID=shell_output[0]
print("GCP project ID:" + GCP_PROJECT_ID)

اکنون نقطه پایانی خوشه KFP خود را تنظیم کنید.

این را می توان از URL داشبورد خطوط لوله پیدا کرد. به داشبورد Kubeflow Pipeline بروید و به URL نگاه کنید. نقطه پایانی است همه چیز را در URL با شروع https:// ، تا، و از جمله، googleusercontent.com .

ENDPOINT='' # Enter YOUR ENDPOINT here.

سپس نوت بوک یک نام منحصر به فرد برای تصویر سفارشی Docker تنظیم می کند:

# Docker image name for the pipeline image
CUSTOM_TFX_IMAGE='gcr.io/' + GCP_PROJECT_ID + '/tfx-pipeline'

6. الگویی را در فهرست پروژه خود کپی کنید

سلول نوت بوک بعدی را ویرایش کنید تا نام خط لوله خود را تنظیم کنید. در این آموزش ما استفاده خواهد کرد my_pipeline .

PIPELINE_NAME="my_pipeline"
PROJECT_DIR=os.path.join(os.path.expanduser("~"),"imported",PIPELINE_NAME)

این نوت بوک سپس با استفاده از tfx CLI برای کپی الگو خط لوله. این آموزش با استفاده از مجموعه داده شیکاگو تاکسی به انجام طبقه بندی باینری، به طوری که قالب مجموعه مدل به taxi :

!tfx template copy \
  --pipeline-name={PIPELINE_NAME} \
  --destination-path={PROJECT_DIR} \
  --model=taxi

سپس نوت بوک متن CWD خود را به فهرست پروژه تغییر می دهد:

%cd {PROJECT_DIR}

پرونده های خط لوله را مرور کنید

در سمت چپ نوت بوک Cloud AI Platform ، باید یک مرورگر فایل را ببینید. باید یک دایرکتوری با نام خط لوله خود را (وجود داشته باشد my_pipeline ). آن را باز کنید و پرونده ها را مشاهده کنید. (می توانید آنها را باز کرده و از محیط دفترچه یادداشت نیز ویرایش کنید.)

# You can also list the files from the shell
 ls

tfx template copy دستور بالا یک داربست پایه از فایل است که ساخت یک خط لوله ایجاد شده است. اینها شامل کدهای منبع پایتون ، داده های نمونه و نوت بوک های مشتری است. اینها برای این مثال خاص در نظر گرفته شده اند. برای خطوط لوله شخصی شما اینها پرونده های پشتیبانی مورد نیاز خط لوله شما هستند.

در اینجا مختصری از پرونده های پایتون آورده شده است.

  • pipeline - این پوشه شامل تعریف از خط لوله
    • configs.py - ثابت مشترک برای دونده خط لوله را تعریف می کند
    • pipeline.py - تعریف اجزای TFX و یک خط لوله
  • models - این پوشه شامل تعاریف مدل ML.
    • features.py features_test.py - تعریف ویژگی های برای مدل
    • preprocessing.py / preprocessing_test.py - تعریف پیش پردازش شغل با استفاده از tf::Transform
    • estimator - این پوشه شامل یک مدل بر اساس برآورد.
      • constants.py - تعریف ثابت از مدل
      • model.py / model_test.py - تعریف مدل DNN با استفاده از برآوردگر TF
    • keras - این پوشه شامل یک مدل مبتنی بر Keras.
      • constants.py - تعریف ثابت از مدل
      • model.py / model_test.py - مدل DNN با استفاده از Keras تعریف
  • beam_runner.py / kubeflow_runner.py - تعریف دونده برای هر موتور ارکستراسیون

7. اولین خط لوله TFX خود را روی Kubeflow اجرا کنید

این نوت بوک با استفاده از خط لوله را اجرا خواهد کرد tfx run دستور CLI.

به فضای ذخیره سازی متصل شوید

در حال اجرا خطوط لوله ایجاد شی ء که باید در ذخیره می شود ML-فراداده . مصنوعات به محموله های بار (loadload) گفته می شود که فایلهایی هستند که باید در یک سیستم فایل ذخیره شوند یا فضای ذخیره سازی را مسدود کنند. برای این آموزش ، ما با استفاده از سطلی که به طور خودکار هنگام راه اندازی ایجاد شده است ، از GCS برای ذخیره بارهای فراداده خود استفاده خواهیم کرد. نام خود را خواهد <your-project-id>-kubeflowpipelines-default .

خط لوله را ایجاد کنید

نوت بوک نمونه داده های ما را در سطل GCS بارگذاری می کند تا بعداً بتوانیم از آنها در خط تولید خود استفاده کنیم.

gsutil cp data/data.csv gs://{GOOGLE_CLOUD_PROJECT}-kubeflowpipelines-default/tfx-template/data/taxi/data.csv

این نوت بوک سپس با استفاده از tfx pipeline create دستور به ایجاد خط لوله.

!tfx pipeline create  \
--pipeline-path=kubeflow_runner.py \
--endpoint={ENDPOINT} \
--build-image

در حالی که ایجاد یک خط لوله، Dockerfile تولید خواهد شد به ساخت یک تصویر کارگر بارانداز. فراموش نکنید که این پرونده ها را به همراه سایر پرونده های منبع به سیستم کنترل منبع خود اضافه کنید (به عنوان مثال git).

خط لوله را اجرا کنید

این نوت بوک سپس با استفاده از tfx run create دستور برای شروع یک اعدام اجرا از خط لوله خود را. همچنین این اجرا را در فهرست آزمایشات در داشبورد خطوط لوله Kubeflow مشاهده خواهید کرد.

tfx run create --pipeline-name={PIPELINE_NAME} --endpoint={ENDPOINT}

می توانید خط لوله خود را از داشبورد خطوط لوله Kubeflow مشاهده کنید.

8. داده های خود را اعتبار سنجی کنید

اولین کار در هر پروژه علوم داده یا ML درک و تمیز کردن داده ها است.

  • انواع داده ها را برای هر ویژگی درک کنید
  • به دنبال ناهنجاری ها و مقادیر از دست رفته باشید
  • توزیع هر ویژگی را درک کنید

اجزاء

اجزای دادهاجزای داده

  • ExampleGen را قورت و تجزیه مجموعه داده های ورودی.
  • StatisticsGen محاسبه آمار برای مجموعه داده.
  • SchemaGen SchemaGen به بررسی آمار و ایجاد یک طرح داده.
  • ExampleValidator به نظر می رسد برای ناهنجاریهای و ارزش از دست رفته در مجموعه داده.

در ویرایشگر پرونده آزمایشگاه Jupyter:

در pipeline / pipeline.py ، کامنت خطوط که این مولفه ها به خط لوله خود را اضافه:

# components.append(statistics_gen)
# components.append(schema_gen)
# components.append(example_validator)

( ExampleGen در حال حاضر فعال بود که فایل های قالب رونوشت شده است.)

خط لوله را به روز کنید و دوباره آن را اجرا کنید

# Update the pipeline
! tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

! tfx run create --pipeline-name "{PIPELINE_NAME}"

خط لوله را بررسی کنید

برای Kubeflow Orchestrator ، از داشبورد KFP بازدید کنید و خروجی های خط لوله را در صفحه برای اجرای خط لوله خود پیدا کنید. روی برگه "آزمایشات" در سمت چپ و "همه اجرا می شوند" در صفحه آزمایشات کلیک کنید. باید بتوانید اجرا را با نام خط لوله خود پیدا کنید.

مثال پیشرفته تر

مثالی که در اینجا ارائه می شود فقط برای شروع کار است. برای یک مثال پیشرفته تر دیدن TensorFlow داده ها اعتبار COLAB .

برای کسب اطلاعات بیشتر در مورد استفاده از TFDV را به کاوش و اعتبار یک مجموعه داده، نمونه هایی در مورد tensorflow.org ببینید .

9. مهندسی ویژگی

با مهندسی ویژگی می توانید کیفیت پیش بینی داده های خود را افزایش داده و یا ابعاد آن را کاهش دهید.

  • صلیب های ویژه
  • واژگان
  • جاسازی ها
  • PCA
  • رمزگذاری دسته بندی شده

یکی از مزایای استفاده از TFX این است که شما یک بار کد تحول خود را می نویسید ، و تغییرات ایجاد شده بین آموزش و خدمت سازگار خواهد بود.

اجزاء

تبدیل

  • تبدیل انجام مهندسی ویژگی در مجموعه داده.

در ویرایشگر پرونده آزمایشگاه Jupyter:

در pipeline / pipeline.py ، پیدا کردن و کامنت خط که اضافه تبدیل به خط لوله.

# components.append(transform)

خط لوله را به روز کنید و دوباره آن را اجرا کنید

# Update the pipeline
! tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

! tfx run create --pipeline-name "{PIPELINE_NAME}"

خروجی های خط لوله را بررسی کنید

برای Kubeflow Orchestrator ، از داشبورد KFP بازدید کنید و خروجی های خط لوله را در صفحه برای اجرای خط لوله خود پیدا کنید. روی برگه "آزمایشات" در سمت چپ و "همه اجرا می شوند" در صفحه آزمایشات کلیک کنید. باید بتوانید اجرا را با نام خط لوله خود پیدا کنید.

مثال پیشرفته تر

مثالی که در اینجا ارائه می شود فقط برای شروع کار است. برای یک مثال پیشرفته تر دیدن TensorFlow تبدیل COLAB .

10. آموزش

با داده های خوب ، تمیز و دگرگون شده خود ، یک مدل TensorFlow را آموزش دهید.

  • تحولات مرحله قبل را اضافه کنید تا به طور مداوم اعمال شوند
  • نتایج را به عنوان SavedModel برای تولید ذخیره کنید
  • با استفاده از TensorBoard روند آموزش را تجسم و کاوش کنید
  • همچنین یک EvalSavedModel را برای تجزیه و تحلیل عملکرد مدل ذخیره کنید

اجزاء

در ویرایشگر پرونده آزمایشگاه Jupyter:

در pipeline / pipeline.py ، پیدا کردن و کامنت که اضافه ترینر به خط لوله:

# components.append(trainer)

خط لوله را به روز کنید و دوباره آن را اجرا کنید

# Update the pipeline
! tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

! tfx run create --pipeline-name "{PIPELINE_NAME}"

خروجی های خط لوله را بررسی کنید

برای Kubeflow Orchestrator ، از داشبورد KFP بازدید کنید و خروجی های خط لوله را در صفحه برای اجرای خط لوله خود پیدا کنید. روی برگه "آزمایشات" در سمت چپ و "همه اجرا می شود" در صفحه آزمایشات کلیک کنید. باید بتوانید اجرا را با نام خط لوله خود پیدا کنید.

مثال پیشرفته تر

مثالی که در اینجا ارائه شده است فقط برای شروع کار است. برای یک مثال پیشرفته تر دیدن TensorBoard آموزش .

11. تجزیه و تحلیل عملکرد مدل

درک بیشتر از معیارهای سطح بالا.

  • کاربران فقط برای سeriesالات خود عملکرد مدل را تجربه می کنند
  • عملکرد ضعیف برش داده ها را می توان با معیارهای سطح بالا پنهان کرد
  • انصاف مدل مهم است
  • اغلب زیر مجموعه های کلیدی کاربران یا داده ها بسیار مهم هستند و ممکن است کم باشند
    • عملکرد در شرایط بحرانی اما غیرمعمول
    • عملکرد برای مخاطبان اصلی مانند اینفلوئنسرها
  • اگر مدلی را که اکنون در حال تولید است جایگزین می کنید ، ابتدا از بهتر بودن مدل جدید اطمینان حاصل کنید

اجزاء

  • ارزیاب انجام تجزیه و تحلیل عمیق از نتایج آموزش.

در ویرایشگر پرونده آزمایشگاه Jupyter:

در pipeline / pipeline.py ، پیدا کردن و کامنت خط که اضافه ارزیاب به خط لوله:

components.append(evaluator)

خط لوله را به روز کنید و دوباره آن را اجرا کنید

# Update the pipeline
! tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

! tfx run create --pipeline-name "{PIPELINE_NAME}"

خروجی های خط لوله را بررسی کنید

برای Kubeflow Orchestrator ، از داشبورد KFP بازدید کنید و خروجی های خط لوله را در صفحه برای اجرای خط لوله خود پیدا کنید. روی برگه "آزمایشات" در سمت چپ و "همه اجرا می شود" در صفحه آزمایشات کلیک کنید. باید بتوانید اجرا را با نام خط لوله خود پیدا کنید.

12. خدمت مدل

اگر مدل جدید آماده است ، آنرا چنین کنید.

  • هل دهنده SavedModels را در مکان های شناخته شده مستقر می کند

اهداف استقرار مدل های جدید را از مکان های شناخته شده دریافت می کنند

  • خدمت TensorFlow
  • TensorFlow Lite
  • TensorFlow JS
  • TensorFlow هاب

اجزاء

در ویرایشگر پرونده آزمایشگاه Jupyter:

در pipeline / pipeline.py ، پیدا کردن و کامنت خط که اضافه فروشنده به خط لوله:

# components.append(pusher)

خروجی های خط لوله را بررسی کنید

برای Kubeflow Orchestrator ، از داشبورد KFP بازدید کنید و خروجی های خط لوله را در صفحه برای اجرای خط لوله خود پیدا کنید. روی برگه "آزمایشات" در سمت چپ و "همه اجرا می شوند" در صفحه آزمایشات کلیک کنید. باید بتوانید اجرا را با نام خط لوله خود پیدا کنید.

اهداف استقرار موجود

شما اکنون مدل خود را آموزش داده و اعتبار سنجی کرده اید و مدل شما اکنون آماده تولید است. اکنون می توانید مدل خود را در هر یک از اهداف استقرار TensorFlow مستقر کنید ، از جمله:

  • TensorFlow خدمت ، برای خدمت به مدل خود را بر روی یک سرور و یا سرور مزرعه و پردازش REST و / یا درخواست استنتاج gRPC.
  • TensorFlow بازگشت به محتوا | ، برای جمله مدل خود را در یک نرم افزار بومی های موبایل آندروید و یا IOS، و یا در یک پی تمشک، اینترنت اشیا، و یا برنامه میکروکنترلر.
  • TensorFlow.js ، برای اجرای مدل خود را در یک مرورگر وب و یا نرم افزار از Node.js.

نمونه های پیشرفته تر

مثالی که در بالا ارائه شد در واقع فقط برای شروع کار است. در زیر چند نمونه از ادغام با سایر سرویس های Cloud آورده شده است.

ملاحظات مربوط به منابع خطوط لوله Kubeflow

بسته به نیازهای حجم کار شما ، پیکربندی پیش فرض برای استقرار خطوط لوله Kubeflow شما ممکن است پاسخگوی نیاز شما باشد یا نباشد. شما می توانید تنظیمات خود را با استفاده از منابع سفارشی pipeline_operator_funcs در تماس خود را به KubeflowDagRunnerConfig .

pipeline_operator_funcs یک لیست از OpFunc اقلام، که تبدیل تمام تولید ContainerOp موارد در تنظیمات خط لوله KFP است که از وارد KubeflowDagRunner .

به عنوان مثال، به حافظه پیکربندی ما می توانید استفاده کنید set_memory_request به اعلام مقدار حافظه مورد نیاز است. یک راه معمولی برای انجام این کار است که برای ایجاد یک لفاف بسته بندی برای set_memory_request و استفاده از آن برای اضافه کردن به به لیست خط لوله OpFunc بازدید کنندگان:

def request_more_memory():
  def _set_memory_spec(container_op):
    container_op.set_memory_request('32G')
  return _set_memory_spec

# Then use this opfunc in KubeflowDagRunner
pipeline_op_funcs = kubeflow_dag_runner.get_default_pipeline_operator_funcs()
pipeline_op_funcs.append(request_more_memory())
config = KubeflowDagRunnerConfig(
    pipeline_operator_funcs=pipeline_op_funcs,
    ...
)
kubeflow_dag_runner.KubeflowDagRunner(config=config).run(pipeline)

توابع پیکربندی منابع مشابه شامل موارد زیر است:

  • set_memory_limit
  • set_cpu_request
  • set_cpu_limit
  • set_gpu_limit

سعی کنید BigQueryExampleGen

BigQuery مشاهده بدون سرور، بسیار مقیاس پذیر، و مقرون به صرفه انبار داده ابر است. BigQuery می تواند به عنوان منبع مثالهای آموزشی در TFX مورد استفاده قرار گیرد. در این مرحله، ما اضافه خواهد شد BigQueryExampleGen به خط لوله.

در ویرایشگر پرونده آزمایشگاه Jupyter:

دوبار کلیک کنید برای باز pipeline.py . اظهار نظر از CsvExampleGen و کامنت خط که ایجاد یک نمونه از BigQueryExampleGen . شما همچنین نیاز به کامنت query استدلال از create_pipeline تابع.

ما نیاز به مشخص کنید که کدام پروژه GCP برای استفاده برای BigQuery مشاهده، و این است که با تنظیم انجام --project در beam_pipeline_args در هنگام ایجاد یک خط لوله است.

دوبار کلیک کنید برای باز configs.py . کامنت تعریف BIG_QUERY_WITH_DIRECT_RUNNER_BEAM_PIPELINE_ARGS و BIG_QUERY_QUERY . شما باید شناسه پروژه و مقدار منطقه را در این فایل با مقادیر صحیح برای پروژه GCP جایگزین کنید.

فهرست را یک سطح به بالا تغییر دهید. روی نام فهرست بالای فهرست پرونده کلیک کنید. نام دایرکتوری به نام خط لوله است که است که my_pipeline اگر شما نام خط لوله را تغییر دهید.

دوبار کلیک کنید برای باز kubeflow_runner.py . دو استدلال کامنت، query و beam_pipeline_args ، برای create_pipeline تابع.

اکنون خط لوله آماده استفاده از BigQuery به عنوان منبع نمونه است. خط لوله را مانند قبل به روز کنید و یک اجرای اجرایی جدید ایجاد کنید همانطور که در مرحله 5 و 6 انجام دادیم.

خط لوله را به روز کنید و دوباره آن را اجرا کنید

# Update the pipeline
!tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

!tfx run create --pipeline-name {PIPELINE_NAME} --endpoint={ENDPOINT}

گردش داده را امتحان کنید

چند TFX قطعات استفاده از Apache پرتو برای اجرای خط لوله داده موازی، و به این معنی که شما می توانید پردازش حجم کار داده ها با استفاده توزیع گوگل ابر Dataflow . در این مرحله ، تنظیم کننده Kubeflow را تنظیم می کنیم تا از Dataflow به عنوان پردازش داده های انتهایی Apache Beam استفاده کند.

# Select your project:
gcloud config set project YOUR_PROJECT_ID

# Get a list of services that you can enable in your project:
gcloud services list --available | grep Dataflow

# If you don't see dataflow.googleapis.com listed, that means you haven't been
# granted access to enable the Dataflow API.  See your account adminstrator.

# Enable the Dataflow service:

gcloud services enable dataflow.googleapis.com

دوبار کلیک کنید pipeline به دایرکتوری تغییر، و دوبار کلیک کنید تا باز configs.py . کامنت تعریف GOOGLE_CLOUD_REGION و DATAFLOW_BEAM_PIPELINE_ARGS .

فهرست را یک سطح به بالا تغییر دهید. روی نام فهرست بالای فهرست پرونده کلیک کنید. نام دایرکتوری به نام خط لوله است که است که my_pipeline اگر شما تغییر نکرده است.

دوبار کلیک کنید برای باز kubeflow_runner.py . کامنت beam_pipeline_args . (همچنین مطمئن شوید برای اظهار نظر از فعلی beam_pipeline_args که شما در مرحله 7. اضافه شده است)

خط لوله را به روز کنید و دوباره آن را اجرا کنید

# Update the pipeline
!tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

!tfx run create --pipeline-name {PIPELINE_NAME} --endpoint={ENDPOINT}

شما می توانید شغل خود را در Dataflow پیدا Dataflow در ابر کنسول .

آموزش و پیش بینی Cloud AI Platform را با KFP امتحان کنید

در تعامل TFX با چندین خدمات GCP مدیریت، مانند ابر AI بستر های نرم افزاری برای آموزش و پیش بینی . شما می توانید خود را تنظیم Trainer جزء برای استفاده از Cloud AI بستر های نرم افزاری آموزش، خدمات مدیریت برای آموزش مدل ML. علاوه بر این، هنگامی که مدل خود را ساخته شده است و آماده به خدمت گرفته شود، شما می توانید مدل خود را به ابر AI بستر های نرم افزاری پیش بینی برای خدمت به فشار. در این مرحله، ما ما را تنظیم Trainer و Pusher جزء به استفاده از خدمات ابر AI بستر های نرم افزاری.

قبل از ویرایش فایل های، برای بار اول شما ممکن است به فعال کردن AI بستر های نرم افزاری آموزش و پیش بینی API.

دوبار کلیک کنید pipeline به دایرکتوری تغییر، و دوبار کلیک کنید تا باز configs.py . کامنت تعریف GOOGLE_CLOUD_REGION ، GCP_AI_PLATFORM_TRAINING_ARGS و GCP_AI_PLATFORM_SERVING_ARGS . ما سفارشی ساخته شده تصویر ظرف ما را برای آموزش یک مدل در ابر AI بستر های نرم افزاری آموزش استفاده خواهد کرد، بنابراین ما باید به مجموعه masterConfig.imageUri در GCP_AI_PLATFORM_TRAINING_ARGS به همان مقدار به عنوان CUSTOM_TFX_IMAGE کنید.

تغییر دایرکتوری یک سطح بالا، و دوبار کلیک کنید تا باز kubeflow_runner.py . کامنت ai_platform_training_args و ai_platform_serving_args .

خط لوله را به روز کنید و دوباره آن را اجرا کنید

# Update the pipeline
!tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

!tfx run create --pipeline-name {PIPELINE_NAME} --endpoint={ENDPOINT}

شما می توانید شغل خود را در آموزش پیدا ابر AI بستر های نرم افزاری جابز . اگر خط لوله خود را با موفقیت انجام شد، شما می توانید مدل خود را در پیدا مدل های ابر AI بستر های نرم افزاری .

14. از داده های خود استفاده کنید

در این آموزش ، شما خط تولید یک مدل را با استفاده از مجموعه داده تاکسی شیکاگو ایجاد کرده اید. اکنون سعی کنید داده های خود را در خط لوله قرار دهید. داده های شما را می توان در هر جایی که خط لوله به آن دسترسی دارد ، از جمله Google Cloud Storage ، BigQuery یا پرونده های CSV ذخیره کرد.

برای مطابقت با داده های خود ، باید تعریف خط لوله را اصلاح کنید.

اگر داده های شما در پرونده ها ذخیره شده است

  1. اصلاح DATA_PATH در kubeflow_runner.py ، نشان می دهد محل.

اگر داده های شما در BigQuery ذخیره شده است

  1. اصلاح BIG_QUERY_QUERY در configs.py به این که کوئری خود را.
  2. اضافه کردن ویژگی های در models / features.py .
  3. اصلاح models / preprocessing.py به تبدیل داده های ورودی برای آموزش .
  4. اصلاح models / keras / model.py و models / keras / constants.py به توصیف مدل ML خود را .

درباره مربی بیشتر بیاموزید

مشاهده راهنمای جزء ترینر برای جزئیات بیشتر در خطوط لوله آموزش.

تمیز کردن

برای پاک کردن تمام منابع گوگل ابر استفاده در این پروژه، شما می توانید این پروژه گوگل ابر حذف شما برای آموزش استفاده می شود.

متناوبا، شما می توانید به پاک کردن منابع فردی با مراجعه به هر یک کنسول: - گوگل ابر ذخیره سازی - رجیستری کانتینر گوگل - گوگل Kubernetes موتور