Bantuan melindungi Great Barrier Reef dengan TensorFlow pada Kaggle Bergabung Tantangan

TFX di Cloud AI Platform Pipeline

pengantar

Tutorial ini dirancang untuk memperkenalkan TensorFlow Extended (TFX) dan Cloud AI Platform Pipelines, serta membantu Anda belajar membuat pipeline machine learning Anda sendiri di Google Cloud. Ini menunjukkan integrasi dengan TFX, AI Platform Pipelines, dan Kubeflow, serta interaksi dengan TFX di notebook Jupyter.

Di akhir tutorial ini, Anda akan membuat dan menjalankan ML Pipeline, yang dihosting di Google Cloud. Anda akan dapat memvisualisasikan hasil setiap proses, dan melihat garis keturunan artefak yang dibuat.

Anda akan mengikuti proses pengembangan ML biasa, dimulai dengan memeriksa set data, dan berakhir dengan alur kerja yang lengkap. Sepanjang jalan Anda akan menjelajahi cara untuk men-debug dan memperbarui saluran Anda, dan mengukur kinerja.

Kumpulan Data Taksi Chicago

TaksiTaksi Chicago

Anda menggunakan Taxi Trips dataset yang dirilis oleh City of Chicago.

Anda dapat membaca lebih lanjut tentang dataset di Google BigQuery . Jelajahi dataset penuh di BigQuery UI .

Sasaran Model - Klasifikasi biner

Akankah tip pelanggan lebih atau kurang dari 20%?

1. Siapkan proyek Google Cloud

1.a Siapkan lingkungan Anda di Google Cloud

Untuk memulai, Anda memerlukan Akun Google Cloud. Jika Anda sudah memiliki satu, langsung beralih ke Buat New Project .

  1. Pergi ke Cloud Console Google .

  2. Setujui persyaratan dan ketentuan Google Cloud

  3. Jika Anda ingin memulai dengan akun percobaan gratis, klik Try For Free (atau Mulai gratis ).

    1. Pilih negaramu.

    2. Setuju dengan persyaratan layanan.

    3. Masukkan detail penagihan.

      Anda tidak akan dikenakan biaya pada saat ini. Jika Anda tidak memiliki proyek lain Google Cloud, Anda dapat menyelesaikan tutorial ini tanpa melebihi Tier Google Cloud Gratis batas, yang mencakup maks 8 core berjalan pada waktu yang sama.

1.b Buat proyek baru.

  1. Dari utama dashboard Google Cloud , klik dropdown proyek di samping header Google Cloud Platform, dan pilih New Project.
  2. Beri nama proyek Anda dan masukkan detail proyek lainnya
  3. Setelah Anda membuat proyek, pilih dari drop-down proyek.

2. Siapkan dan terapkan AI Platform Pipeline pada kluster Kubernetes baru

  1. Pergi ke AI Landasan Pipa Cluster halaman.

    Di bawah Menu Navigasi Utama: > AI Platform > Pipelines

  2. Klik + New Instance untuk membuat cluster baru.

  3. Pada halaman ikhtisar Kubeflow Pipelines, klik Configure.

    Anda mungkin harus menunggu beberapa menit sebelum melanjutkan, saat Kubernetes Engine API sedang diaktifkan untuk Anda.

  4. Pada halaman Deploy Kubeflow Pipa:

    1. Pilih zona (atau "wilayah") untuk cluster Anda.
    2. PENTING Periksa kotak berlabel Izinkan akses ke API cloud berikut. (Ini diperlukan agar cluster ini dapat mengakses bagian lain dari proyek Anda. Jika Anda melewatkan langkah ini, memperbaikinya nanti akan sedikit rumit.)

    3. Klik Create, dan tunggu beberapa menit sampai cluster telah dibuat.

    4. Pilih namespace dan nama instance (menggunakan default tidak masalah). Anda tidak harus memeriksa Gunakan penyimpanan berhasil.

    5. Klik Deploy, dan tunggu beberapa saat sampai pipa telah dikerahkan. Dengan menerapkan Kubeflow Pipelines, Anda menerima Persyaratan Layanan.

3. Siapkan instans Cloud AI Platform Notebook.

  1. Pergi ke AI Notebook Landasan halaman.

    Di bawah Menu Navigasi Utama: -> Platform AI -> Notebook

  2. Jika diminta, aktifkan Compute Engine API.

  3. Buat Instance Baru dengan TensorFlow 2.1 (atau lebih tinggi) diinstal.

    Instance Baru -> TensorFlow 2.1 -> Tanpa GPU

    Untuk tetap berada dalam batas Tingkat Gratis, jangan terima pengaturan default di sini. Anda perlu mengurangi jumlah vCPU yang tersedia untuk instans ini dari 4 menjadi 2:

    1. Pilih Customize di bagian bawah New bentuk notebook misalnya.
    2. Pilih konfigurasi mesin dengan 1 atau 2 vCPUs.

4. Luncurkan Buku Catatan Memulai

  1. Pergi ke AI Landasan Pipa Cluster halaman.

    Di bawah Menu Navigasi Utama: -> AI Platform -> Pipelines

  2. Pada baris untuk cluster yang Anda gunakan dalam tutorial ini, klik Terbuka Pipa Dashboard.

    dasbor terbuka

  3. Pada halaman Memulai, klik Terbuka TF 2.1 Notebook.

  4. Pilih contoh Notebook Anda gunakan untuk tutorial ini dan Lanjutkan.

    pilih-notebook

5. Lanjutkan bekerja di Notebook

Install

Memulai Notebook dimulai dengan memasang TFX dan Kubeflow Pipelines (KFP) ke VM yang Jupyter Lab sedang berjalan di.

Kemudian memeriksa versi TFX mana yang diinstal, melakukan impor, dan menetapkan serta mencetak ID Proyek:

periksa versi python dan impor

Terhubung dengan layanan Google Cloud Anda

Konfigurasi pipeline memerlukan ID proyek Anda, yang bisa Anda dapatkan melalui notebook dan ditetapkan sebagai variabel lingkungan.

# Read GCP project id from env.
shell_output=!gcloud config list --format 'value(core.project)' 2>/dev/null
GCP_PROJECT_ID=shell_output[0]
print("GCP project ID:" + GCP_PROJECT_ID)

Sekarang atur titik akhir klaster KFP Anda.

Ini dapat ditemukan dari URL dasbor Pipelines. Buka dasbor Kubeflow Pipeline dan lihat URL-nya. Titik akhir adalah segalanya dalam URL dimulai dengan https:// , sampai dengan, dan termasuk, googleusercontent.com .

ENDPOINT='' # Enter YOUR ENDPOINT here.

Notebook kemudian menetapkan nama unik untuk image Docker kustom:

# Docker image name for the pipeline image
CUSTOM_TFX_IMAGE='gcr.io/' + GCP_PROJECT_ID + '/tfx-pipeline'

6. Salin template ke direktori proyek Anda

Edit sel buku catatan berikutnya untuk menetapkan nama untuk saluran Anda. Dalam tutorial ini kita akan menggunakan my_pipeline .

PIPELINE_NAME="my_pipeline"
PROJECT_DIR=os.path.join(os.path.expanduser("~"),"imported",PIPELINE_NAME)

Notebook ini kemudian menggunakan tfx CLI untuk menyalin template pipa. Tutorial ini menggunakan dataset Chicago Taxi untuk melakukan klasifikasi biner, sehingga template set model untuk taxi :

!tfx template copy \
  --pipeline-name={PIPELINE_NAME} \
  --destination-path={PROJECT_DIR} \
  --model=taxi

Notebook kemudian mengubah konteks CWD ke direktori proyek:

%cd {PROJECT_DIR}

Jelajahi file pipa

Di sisi kiri Notebook Cloud AI Platform, Anda akan melihat browser file. Harus ada direktori dengan nama pipa Anda ( my_pipeline ). Buka dan lihat file. (Anda juga dapat membukanya dan mengedit dari lingkungan notebook.)

# You can also list the files from the shell
 ls

The tfx template copy perintah di atas dibuat perancah dasar file yang membangun saluran pipa. Ini termasuk kode sumber Python, data sampel, dan notebook Jupyter. Ini dimaksudkan untuk contoh khusus ini. Untuk pipeline Anda sendiri, ini adalah file pendukung yang dibutuhkan oleh pipeline Anda.

Berikut adalah deskripsi singkat dari file Python.

  • pipeline - Direktori ini berisi definisi pipa
    • configs.py - mendefinisikan konstanta umum untuk pelari pipa
    • pipeline.py - mendefinisikan komponen TFX dan pipa
  • models - Direktori ini berisi ML definisi Model.
    • features.py features_test.py - mendefinisikan fitur untuk model
    • preprocessing.py / preprocessing_test.py - mendefinisikan preprocessing pekerjaan menggunakan tf::Transform
    • estimator - Direktori ini berisi model berbasis Pengukur.
      • constants.py - mendefinisikan konstanta model
      • model.py / model_test.py - mendefinisikan Model DNN menggunakan TF estimator
    • keras - Direktori ini berisi model yang didasarkan Keras.
      • constants.py - mendefinisikan konstanta model
      • model.py / model_test.py - mendefinisikan Model DNN menggunakan Keras
  • beam_runner.py / kubeflow_runner.py - mendefinisikan pelari untuk setiap mesin orkestrasi

7. Jalankan pipeline TFX pertama Anda di Kubeflow

Notebook akan menjalankan pipa menggunakan tfx run perintah CLI.

Hubungkan ke penyimpanan

Menjalankan pipa membuat artefak yang harus disimpan dalam ML-Metadata . Artefak mengacu pada muatan, yang merupakan file yang harus disimpan dalam sistem file atau penyimpanan blok. Untuk tutorial ini, kami akan menggunakan GCS untuk menyimpan payload metadata kami, menggunakan bucket yang dibuat secara otomatis selama penyiapan. Namanya akan menjadi <your-project-id>-kubeflowpipelines-default .

Buat saluran pipa

Notebook akan mengunggah data sampel kami ke bucket GCS sehingga kami dapat menggunakannya di pipeline kami nanti.

gsutil cp data/data.csv gs://{GOOGLE_CLOUD_PROJECT}-kubeflowpipelines-default/tfx-template/data/taxi/data.csv

Notebook ini kemudian menggunakan tfx pipeline create perintah untuk membuat pipa.

!tfx pipeline create  \
--pipeline-path=kubeflow_runner.py \
--endpoint={ENDPOINT} \
--build-image

Sementara menciptakan pipa, Dockerfile akan dihasilkan untuk membangun citra Docker. Jangan lupa untuk menambahkan file-file ini ke sistem kontrol sumber Anda (misalnya, git) bersama dengan file sumber lainnya.

Jalankan pipa

Notebook ini kemudian menggunakan tfx run create perintah untuk memulai eksekusi lari dari pipa Anda. Anda juga akan melihat proses ini terdaftar di bawah Eksperimen di Dasbor Kubeflow Pipelines.

tfx run create --pipeline-name={PIPELINE_NAME} --endpoint={ENDPOINT}

Anda dapat melihat pipeline Anda dari Kubeflow Pipelines Dashboard.

8. Validasi data Anda

Tugas pertama dalam ilmu data atau proyek ML adalah memahami dan membersihkan data.

  • Pahami tipe data untuk setiap fitur
  • Cari anomali dan nilai yang hilang
  • Pahami distribusi untuk setiap fitur

Komponen

Komponen DataKomponen Data

  • ExampleGen ingests dan membagi dataset masukan.
  • StatisticsGen menghitung statistik untuk dataset.
  • SchemaGen SchemaGen meneliti statistik dan menciptakan skema data.
  • ExampleValidator mencari anomali dan nilai-nilai yang hilang dalam dataset.

Di editor file lab Jupyter:

Dalam pipeline / pipeline.py , tanda komentar garis yang menambahkan komponen ini ke pipa Anda:

# components.append(statistics_gen)
# components.append(schema_gen)
# components.append(example_validator)

( ExampleGen sudah diaktifkan ketika file template yang disalin.)

Perbarui pipa dan jalankan kembali

# Update the pipeline
! tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

! tfx run create --pipeline-name "{PIPELINE_NAME}"

Periksa pipa

Untuk Kubeflow Orchestrator, kunjungi dasbor KFP dan temukan output pipeline di halaman untuk menjalankan pipeline Anda. Klik tab "Eksperimen" di sebelah kiri, dan "Semua berjalan" di laman Eksperimen. Anda harus dapat menemukan proses dengan nama pipa Anda.

Contoh lebih lanjut

Contoh yang disajikan di sini benar-benar hanya dimaksudkan untuk membantu Anda memulai. Untuk contoh yang lebih canggih melihat TensorFlow Validasi Data CoLab .

Untuk informasi lebih lanjut tentang menggunakan TFDV untuk mengeksplorasi dan memvalidasi dataset, lihat contoh di tensorflow.org .

9. Rekayasa fitur

Anda dapat meningkatkan kualitas prediktif data Anda dan/atau mengurangi dimensi dengan rekayasa fitur.

  • Persilangan fitur
  • Kosakata
  • Penyematan
  • PCA
  • Pengkodean kategoris

Salah satu keuntungan menggunakan TFX adalah Anda akan menulis kode transformasi Anda sekali, dan transformasi yang dihasilkan akan konsisten antara pelatihan dan penayangan.

Komponen

Mengubah

  • Transform Melakukan rekayasa fitur pada dataset.

Di editor file lab Jupyter:

Dalam pipeline / pipeline.py , menemukan dan tanda komentar pada baris yang menambahkan Transform untuk pipa.

# components.append(transform)

Perbarui pipa dan jalankan kembali

# Update the pipeline
! tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

! tfx run create --pipeline-name "{PIPELINE_NAME}"

Periksa output pipa

Untuk Kubeflow Orchestrator, kunjungi dasbor KFP dan temukan output pipeline di halaman untuk menjalankan pipeline Anda. Klik tab "Eksperimen" di sebelah kiri, dan "Semua berjalan" di laman Eksperimen. Anda harus dapat menemukan proses dengan nama pipa Anda.

Contoh lebih lanjut

Contoh yang disajikan di sini benar-benar hanya dimaksudkan untuk membantu Anda memulai. Untuk contoh yang lebih canggih melihat TensorFlow Transform CoLab .

10. Pelatihan

Latih model TensorFlow dengan data Anda yang bagus, bersih, dan telah diubah.

  • Sertakan transformasi dari langkah sebelumnya sehingga diterapkan secara konsisten
  • Simpan hasilnya sebagai Model Tersimpan untuk produksi
  • Visualisasikan dan jelajahi proses pelatihan menggunakan TensorBoard
  • Juga simpan EvalSavedModel untuk analisis kinerja model

Komponen

Di editor file lab Jupyter:

Dalam pipeline / pipeline.py , menemukan dan tanda komentar yang yang menambahkan Trainer untuk pipa:

# components.append(trainer)

Perbarui pipa dan jalankan kembali

# Update the pipeline
! tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

! tfx run create --pipeline-name "{PIPELINE_NAME}"

Periksa output pipa

Untuk Kubeflow Orchestrator, kunjungi dasbor KFP dan temukan output pipeline di halaman untuk menjalankan pipeline Anda. Klik tab "Eksperimen" di sebelah kiri, dan "Semua berjalan" di laman Eksperimen. Anda harus dapat menemukan proses dengan nama pipa Anda.

Contoh lebih lanjut

Contoh yang disajikan di sini benar-benar hanya dimaksudkan untuk membantu Anda memulai. Untuk contoh yang lebih canggih melihat TensorBoard Tutorial .

11. Menganalisis kinerja model

Memahami lebih dari sekadar metrik tingkat atas.

  • Pengguna mengalami kinerja model hanya untuk kueri mereka
  • Performa buruk pada irisan data dapat disembunyikan oleh metrik tingkat atas
  • Keadilan model itu penting
  • Seringkali subset kunci dari pengguna atau data sangat penting, dan mungkin kecil
    • Performa dalam kondisi kritis tetapi tidak biasa
    • Performa untuk audiens utama seperti influencer
  • Jika Anda mengganti model yang sedang diproduksi, pastikan dulu yang baru lebih baik

Komponen

  • Evaluator melakukan analisis mendalam dari hasil pelatihan.

Di editor file lab Jupyter:

Dalam pipeline / pipeline.py , menemukan dan tanda komentar pada baris yang menambahkan Evaluator ke pipa:

components.append(evaluator)

Perbarui pipa dan jalankan kembali

# Update the pipeline
! tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

! tfx run create --pipeline-name "{PIPELINE_NAME}"

Periksa output pipa

Untuk Kubeflow Orchestrator, kunjungi dasbor KFP dan temukan output pipeline di halaman untuk menjalankan pipeline Anda. Klik tab "Eksperimen" di sebelah kiri, dan "Semua berjalan" di laman Eksperimen. Anda harus dapat menemukan proses dengan nama pipa Anda.

12. Melayani model

Jika model baru sudah siap, buatlah.

  • Pusher menyebarkan SavedModels ke lokasi terkenal

Target penerapan menerima model baru dari lokasi terkenal

  • Penyajian TensorFlow
  • TensorFlow Lite
  • TensorFlow JS
  • Pusat TensorFlow

Komponen

  • Pusher menyebarkan model untuk infrastruktur melayani.

Di editor file lab Jupyter:

Dalam pipeline / pipeline.py , menemukan dan tanda komentar pada baris yang menambahkan Pusher ke pipa:

# components.append(pusher)

Periksa output pipa

Untuk Kubeflow Orchestrator, kunjungi dasbor KFP dan temukan output pipeline di halaman untuk menjalankan pipeline Anda. Klik tab "Eksperimen" di sebelah kiri, dan "Semua berjalan" di laman Eksperimen. Anda harus dapat menemukan proses dengan nama pipa Anda.

Target penerapan yang tersedia

Anda sekarang telah melatih dan memvalidasi model Anda, dan model Anda sekarang siap untuk diproduksi. Anda sekarang dapat menerapkan model Anda ke salah satu target penerapan TensorFlow, termasuk:

  • TensorFlow Melayani , untuk melayani model Anda pada server atau server farm dan pengolahan REST dan / atau permintaan inferensi gRPC.
  • TensorFlow Lite , untuk termasuk model Anda dalam aplikasi mobile Android atau iOS asli, atau dalam Raspberry Pi, IOT, atau aplikasi mikrokontroler.
  • TensorFlow.js , untuk menjalankan model Anda di web browser atau aplikasi Node.js.

Contoh lebih lanjut

Contoh yang disajikan di atas sebenarnya hanya dimaksudkan untuk membantu Anda memulai. Di bawah ini adalah beberapa contoh integrasi dengan layanan Cloud lainnya.

Pertimbangan sumber daya Kubeflow Pipeline

Bergantung pada persyaratan beban kerja Anda, konfigurasi default untuk penerapan Kubeflow Pipelines Anda mungkin memenuhi kebutuhan Anda atau tidak. Anda dapat menyesuaikan konfigurasi sumber daya Anda menggunakan pipeline_operator_funcs dalam panggilan Anda untuk KubeflowDagRunnerConfig .

pipeline_operator_funcs adalah daftar OpFunc item, yang mengubah semua yang dihasilkan ContainerOp contoh di KFP pipa spesifikasi yang dikompilasi dari KubeflowDagRunner .

Misalnya, untuk memori configure kita dapat menggunakan set_memory_request untuk menyatakan jumlah memori yang dibutuhkan. Sebuah cara khas untuk melakukannya adalah untuk membuat pembungkus untuk set_memory_request dan menggunakannya untuk menambah ke daftar pipa OpFunc s:

def request_more_memory():
  def _set_memory_spec(container_op):
    container_op.set_memory_request('32G')
  return _set_memory_spec

# Then use this opfunc in KubeflowDagRunner
pipeline_op_funcs = kubeflow_dag_runner.get_default_pipeline_operator_funcs()
pipeline_op_funcs.append(request_more_memory())
config = KubeflowDagRunnerConfig(
    pipeline_operator_funcs=pipeline_op_funcs,
    ...
)
kubeflow_dag_runner.KubeflowDagRunner(config=config).run(pipeline)

Fungsi konfigurasi sumber daya serupa meliputi:

  • set_memory_limit
  • set_cpu_request
  • set_cpu_limit
  • set_gpu_limit

Coba BigQueryExampleGen

BigQuery adalah serverless, sangat scalable, dan hemat biaya data awan gudang. BigQuery dapat digunakan sebagai sumber untuk contoh pelatihan di TFX. Pada langkah ini, kita akan menambahkan BigQueryExampleGen ke pipa.

Di editor file lab Jupyter:

-Klik dua kali untuk membuka pipeline.py . Komentar keluar CsvExampleGen dan komentar pada baris yang menciptakan sebuah instance dari BigQueryExampleGen . Anda juga perlu tanda komentar pada query argumen dari create_pipeline fungsi.

Kita perlu menentukan proyek GCP digunakan untuk BigQuery, dan ini dilakukan dengan menetapkan --project di beam_pipeline_args saat membuat saluran pipa.

-Klik dua kali untuk membuka configs.py . Tanda komentar definisi BIG_QUERY_WITH_DIRECT_RUNNER_BEAM_PIPELINE_ARGS dan BIG_QUERY_QUERY . Anda harus mengganti id proyek dan nilai region dalam file ini dengan nilai yang benar untuk proyek GCP Anda.

Ubah direktori satu tingkat ke atas. Klik nama direktori di atas daftar file. Nama direktori adalah nama dari pipa yang my_pipeline jika Anda tidak mengubah nama pipa.

-Klik dua kali untuk membuka kubeflow_runner.py . Tanda komentar dua argumen, query dan beam_pipeline_args , untuk create_pipeline fungsi.

Sekarang pipeline siap menggunakan BigQuery sebagai sumber contoh. Perbarui pipeline seperti sebelumnya dan buat eksekusi baru seperti yang kita lakukan pada langkah 5 dan 6.

Perbarui pipeline dan jalankan kembali

# Update the pipeline
!tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

!tfx run create --pipeline-name {PIPELINE_NAME} --endpoint={ENDPOINT}

Coba Aliran Data

Beberapa TFX Komponen menggunakan Apache Beam untuk menerapkan data-paralel pipa, dan itu berarti bahwa Anda dapat mendistribusikan pengolahan data beban kerja menggunakan Google Cloud Dataflow . Pada langkah ini, kita akan mengatur orkestra Kubeflow untuk menggunakan Dataflow sebagai back-end pemrosesan data untuk Apache Beam.

# Select your project:
gcloud config set project YOUR_PROJECT_ID

# Get a list of services that you can enable in your project:
gcloud services list --available | grep Dataflow

# If you don't see dataflow.googleapis.com listed, that means you haven't been
# granted access to enable the Dataflow API.  See your account adminstrator.

# Enable the Dataflow service:

gcloud services enable dataflow.googleapis.com

Klik dua kali pipeline direktori perubahan, dan double-klik untuk membuka configs.py . Tanda komentar definisi GOOGLE_CLOUD_REGION , dan DATAFLOW_BEAM_PIPELINE_ARGS .

Ubah direktori satu tingkat ke atas. Klik nama direktori di atas daftar file. Nama direktori adalah nama dari pipa yang my_pipeline jika Anda tidak berubah.

-Klik dua kali untuk membuka kubeflow_runner.py . Tanda komentar beam_pipeline_args . (Juga pastikan untuk komentar saat beam_pipeline_args yang ditambahkan pada Langkah 7.)

Perbarui pipa dan jalankan kembali

# Update the pipeline
!tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

!tfx run create --pipeline-name {PIPELINE_NAME} --endpoint={ENDPOINT}

Anda dapat menemukan pekerjaan Dataflow Anda di Dataflow di Cloud Console .

Coba Pelatihan dan Prediksi Cloud AI Platform dengan KFP

Interoperasi TFX dengan beberapa layanan GCP dikelola, seperti Cloud AI Platform untuk Pelatihan dan Prediksi . Anda dapat mengatur Anda Trainer komponen untuk menggunakan Cloud AI Landasan Pelatihan, layanan dikelola untuk pelatihan model ML. Selain itu, ketika model Anda dibuat dan siap disajikan, Anda dapat mendorong model Anda ke Cloud AI Landasan Prediksi untuk melayani. Pada langkah ini, kita akan mengatur kami Trainer dan Pusher komponen untuk menggunakan layanan Cloud AI Platform.

Sebelum mengedit file, Anda mungkin pertama harus mengaktifkan AI Landasan Training & Prediksi API.

Klik dua kali pipeline direktori perubahan, dan double-klik untuk membuka configs.py . Tanda komentar definisi GOOGLE_CLOUD_REGION , GCP_AI_PLATFORM_TRAINING_ARGS dan GCP_AI_PLATFORM_SERVING_ARGS . Kami akan menggunakan kustom dibangun image wadah kami untuk melatih model di Cloud AI Pelatihan Platform, jadi kita harus mengatur masterConfig.imageUri di GCP_AI_PLATFORM_TRAINING_ARGS dengan nilai yang sama seperti CUSTOM_TFX_IMAGE di atas.

Ubah direktori satu tingkat atas, dan double-klik untuk membuka kubeflow_runner.py . Tanda komentar ai_platform_training_args dan ai_platform_serving_args .

Perbarui pipa dan jalankan kembali

# Update the pipeline
!tfx pipeline update \
  --pipeline-path=kubeflow_runner.py \
  --endpoint={ENDPOINT}

!tfx run create --pipeline-name {PIPELINE_NAME} --endpoint={ENDPOINT}

Anda dapat menemukan pekerjaan pelatihan Anda di Cloud AI Landasan Jobs . Jika pipa Anda selesai dengan sukses, Anda dapat menemukan model Anda di Model Cloud AI platform .

14. Gunakan data Anda sendiri

Dalam tutorial ini, Anda membuat pipeline untuk model menggunakan dataset Chicago Taxi. Sekarang coba masukkan data Anda sendiri ke dalam pipeline. Data Anda dapat disimpan di mana pun pipeline dapat mengaksesnya, termasuk file Google Cloud Storage, BigQuery, atau CSV.

Anda perlu mengubah definisi saluran untuk mengakomodasi data Anda.

Jika data Anda disimpan dalam file

  1. Memodifikasi DATA_PATH di kubeflow_runner.py , menunjukkan lokasi.

Jika data Anda disimpan di BigQuery

  1. Memodifikasi BIG_QUERY_QUERY di configs.py pernyataan permintaan Anda.
  2. Menambahkan fitur di models / features.py .
  3. Memodifikasi models / preprocessing.py untuk mentransformasi input data untuk pelatihan .
  4. Memodifikasi models / keras / model.py dan models / keras / constants.py untuk menggambarkan model ML Anda .

Pelajari lebih lanjut tentang Pelatih

Lihat Trainer panduan komponen untuk rincian lebih lanjut tentang jaringan pipa Training.

Membersihkan

Untuk membersihkan semua sumber daya Google Cloud digunakan dalam proyek ini, Anda dapat menghapus proyek Google Cloud Anda digunakan untuk tutorial.

Atau, Anda dapat membersihkan sumber daya individu dengan mengunjungi masing-masing konsol: - Google Cloud Storage - Google Registry Kontainer - Google Kubernetes Mesin