यह नोटबुक-आधारित ट्यूटोरियल एक टीएफएक्स पाइपलाइन बनाएगा और चलाएगा जो वर्टेक्स एआई प्रशिक्षण सेवा का उपयोग करके एक एमएल मॉडल को प्रशिक्षित करता है और इसे सेवा के लिए वर्टेक्स एआई में प्रकाशित करता है।
इस नोटबुक TFX पाइपलाइन हम में बनाया पर आधारित है वर्टेक्स पाइपलाइन ट्यूटोरियल के लिए सरल TFX पाइपलाइन । यदि आपने अभी तक उस ट्यूटोरियल को नहीं पढ़ा है, तो इस नोटबुक के साथ आगे बढ़ने से पहले आपको इसे पढ़ना चाहिए।
आप ऑटोएमएल का उपयोग करके वर्टेक्स एआई पर मॉडल को प्रशिक्षित कर सकते हैं, या कस्टम प्रशिक्षण का उपयोग कर सकते हैं। कस्टम प्रशिक्षण में, आप अपने प्रशिक्षण कार्यों को सशक्त बनाने, वितरित प्रशिक्षण को सक्षम करने, हाइपरपैरामीटर ट्यूनिंग का उपयोग करने और GPU के साथ त्वरित करने के लिए कई अलग-अलग मशीन प्रकारों का चयन कर सकते हैं।
आप प्रशिक्षित मॉडल को वर्टेक्स एआई मॉडल में तैनात करके और एक समापन बिंदु बनाकर भविष्यवाणी अनुरोधों की सेवा भी कर सकते हैं।
इस ट्यूटोरियल में, हम TFX पाइपलाइन में एक मॉडल को प्रशिक्षित करने के लिए कस्टम जॉब के साथ वर्टेक्स एआई ट्रेनिंग का उपयोग करेंगे। हम वर्टेक्स एआई का उपयोग करके भविष्यवाणी अनुरोध को पूरा करने के लिए मॉडल को भी तैनात करेंगे।
इस नोटबुक पर चलाया जा करने का इरादा है गूगल Colab या पर ऐ मंच नोटबुक । यदि आप इनमें से किसी एक का उपयोग नहीं कर रहे हैं, तो आप बस ऊपर "Google Colab में चलाएँ" बटन पर क्लिक कर सकते हैं।
सेट अप
आप पूरी कर ली है वर्टेक्स पाइपलाइन ट्यूटोरियल के लिए सरल TFX पाइपलाइन , आप एक काम कर जीसीपी परियोजना और एक GCS बाल्टी होगा और कहा कि सभी हम इस ट्यूटोरियल के लिए की जरूरत है। यदि आप चूक गए हैं तो कृपया पहले प्रारंभिक ट्यूटोरियल पढ़ें।
पायथन पैकेज स्थापित करें
हम लेखक एमएल पाइपलाइनों के लिए टीएफएक्स और केएफपी सहित आवश्यक पायथन पैकेज स्थापित करेंगे और वर्टेक्स पाइपलाइनों को नौकरियां जमा करेंगे।
# Use the latest version of pip.
pip install --upgrade pip
pip install --upgrade "tfx[kfp]<2"
क्या आपने रनटाइम को पुनरारंभ किया?
यदि आप Google Colab का उपयोग कर रहे हैं, जब आप पहली बार ऊपर सेल चलाते हैं, तो आपको "रनटाइम को पुनरारंभ करें" बटन पर क्लिक करके या "रनटाइम> रनटाइम पुनरारंभ करें ..." मेनू का उपयोग करके रनटाइम को पुनरारंभ करना होगा। ऐसा इसलिए है क्योंकि Colab संकुल को लोड करता है।
यदि आप Colab पर नहीं हैं, तो आप निम्न सेल के साथ रनटाइम को पुनरारंभ कर सकते हैं।
# docs_infra: no_execute
import sys
if not 'google.colab' in sys.modules:
# Automatically restart kernel after installs
import IPython
app = IPython.Application.instance()
इस नोटबुक के लिए Google में लॉगिन करें
यदि आप इस नोटबुक को Colab पर चला रहे हैं, तो अपने उपयोगकर्ता खाते से प्रमाणित करें:
import sys
if 'google.colab' in sys.modules:
from google.colab import auth
आप अगले अनुभाग चल रहा है, चलाकर से पहले पर ऐ मंच नोटबुक, Google मेघ के साथ प्रमाणित कर रहे हैं
gcloud auth login
टर्मिनल विंडो में (जो आप फ़ाइल के माध्यम से खोल सकते हैं> मेनू में नया)। आपको प्रति नोटबुक इंस्टेंस में केवल एक बार ऐसा करने की आवश्यकता है।
पैकेज संस्करणों की जाँच करें।
import tensorflow as tf
print('TensorFlow version: {}'.format(tf.__version__))
from tfx import v1 as tfx
print('TFX version: {}'.format(tfx.__version__))
import kfp
print('KFP version: {}'.format(kfp.__version__))
TensorFlow version: 2.6.2 TFX version: 1.4.0 KFP version: 1.8.1
चर सेट करें
हम नीचे पाइपलाइनों को अनुकूलित करने के लिए उपयोग किए जाने वाले कुछ चर स्थापित करेंगे। निम्नलिखित जानकारी आवश्यक है:
- जीसीपी परियोजना आईडी। देखें अपनी परियोजना आईडी की पहचान करना ।
- पाइपलाइन चलाने के लिए जीसीपी क्षेत्र। क्षेत्रों के बारे में अधिक जानकारी है कि वर्टेक्स पाइपलाइन में उपलब्ध है के लिए, देखें वर्टेक्स ऐ स्थानों गाइड ।
- पाइपलाइन आउटपुट को स्टोर करने के लिए Google क्लाउड स्टोरेज बकेट।
चलाने से पहले नीचे सेल में आवश्यक मान दर्ज करें।
from absl import logging
logging.error('Please set all required parameters.')
ERROR:absl:Please set all required parameters.
सेट gcloud
अपनी परियोजना का उपयोग करने के।
gcloud config set project {GOOGLE_CLOUD_PROJECT}
ERROR: (gcloud.config.set) argument VALUE: Must be specified. Usage: gcloud config set SECTION/PROPERTY VALUE [optional flags] optional flags may be --help | --installation For detailed information on this command and its flags, run: gcloud config set --help
PIPELINE_NAME = 'penguin-vertex-training'
# Path to various pipeline artifact.
PIPELINE_ROOT = 'gs://{}/pipeline_root/{}'.format(GCS_BUCKET_NAME, PIPELINE_NAME)
# Paths for users' Python module.
MODULE_ROOT = 'gs://{}/pipeline_module/{}'.format(GCS_BUCKET_NAME, PIPELINE_NAME)
# Paths for users' data.
DATA_ROOT = 'gs://{}/data/{}'.format(GCS_BUCKET_NAME, PIPELINE_NAME)
# Name of Vertex AI Endpoint.
print('PIPELINE_ROOT: {}'.format(PIPELINE_ROOT))
PIPELINE_ROOT: gs:///pipeline_root/penguin-vertex-training
उदाहरण डेटा तैयार करें
हम एक ही उपयोग करेगा पामर पेंगुइन डाटासेट के रूप में सरल TFX पाइपलाइन ट्यूटोरियल ।
इस डेटासेट में चार संख्यात्मक विशेषताएं हैं जिन्हें पहले से ही [0,1] श्रेणी के लिए सामान्यीकृत किया गया था। हम एक वर्गीकरण मॉडल जो भविष्यवाणी का निर्माण करेगा species
पेंगुइन की।
हमें डेटासेट की अपनी कॉपी खुद बनानी होगी। क्योंकि TFXexampleGen एक निर्देशिका से इनपुट पढ़ता है, हमें GCS पर एक निर्देशिका बनाने और डेटासेट की प्रतिलिपि बनाने की आवश्यकता है।
gsutil cp gs://download.tensorflow.org/data/palmer_penguins/penguins_processed.csv {DATA_ROOT}/
InvalidUrlError: Cloud URL scheme should be followed by colon and two slashes: "://". Found: "gs:///data/penguin-vertex-training/".
सीएसवी फ़ाइल पर एक त्वरित नज़र डालें।
gsutil cat {DATA_ROOT}/penguins_processed.csv | head
InvalidUrlError: Cloud URL scheme should be followed by colon and two slashes: "://". Found: "gs:///data/penguin-vertex-training/penguins_processed.csv".
एक पाइपलाइन बनाएं
हमारे पाइप लाइन बहुत पाइपलाइन हम में बनाया के समान होगा वर्टेक्स पाइपलाइन ट्यूटोरियल के लिए सरल TFX पाइपलाइन । पाइपलाइन में तीन घटक होंगे, CsvExampleGen, ट्रेनर और पुशर। लेकिन हम एक विशेष ट्रेनर और पुशर घटक का उपयोग करेंगे। ट्रेनर घटक प्रशिक्षण कार्यभार को वर्टेक्स एआई में स्थानांतरित करेगा, और पुशर घटक प्रशिक्षित एमएल मॉडल को फाइल सिस्टम के बजाय वर्टेक्स एआई में प्रकाशित करेगा।
TFX एक विशेष प्रदान करता है Trainer
वर्टेक्स ऐ प्रशिक्षण सेवा करने के लिए प्रशिक्षण कार्य सबमिट करने। हम सभी यह करना है इस्तेमाल होता है Trainer
विस्तार मॉड्यूल के बजाय मानक में Trainer
कुछ आवश्यक जीसीपी पैरामीटर के साथ साथ घटक।
इस ट्यूटोरियल में, हम केवल पहले CPU का उपयोग करके और फिर GPU के साथ Vertex AI ट्रेनिंग जॉब चलाएंगे।
TFX भी एक विशेष प्रदान करता है Pusher
वर्टेक्स ऐ मॉडल के लिए मॉडल अपलोड। Pusher
वर्टेक्स ऐ Endpoint संसाधन भी बनाने ऑनलाइन perdictions सेवा करने के लिए होगा। देखें वर्टेक्स ऐ प्रलेखन ऑनलाइन वर्टेक्स ऐ द्वारा प्रदान की भविष्यवाणियों के बारे में अधिक जानने के लिए।
मॉडल कोड लिखें।
मॉडल ही लगभग में मॉडल के समान है सरल TFX पाइपलाइन ट्यूटोरियल ।
हम जोड़ देगा _get_distribution_strategy()
समारोह जो एक बनाता है TensorFlow वितरण रणनीति और उस में प्रयोग किया जाता है run_fn
MirroredStrategy उपयोग करने के लिए करता है, तो GPU उपलब्ध है।
_trainer_module_file = 'penguin_trainer.py'
%%writefile {_trainer_module_file}
# Copied from https://www.tensorflow.org/tfx/tutorials/tfx/penguin_simple and
# slightly modified run_fn() to add distribution_strategy.
from typing import List
from absl import logging
import tensorflow as tf
from tensorflow import keras
from tensorflow_metadata.proto.v0 import schema_pb2
from tensorflow_transform.tf_metadata import schema_utils
from tfx import v1 as tfx
from tfx_bsl.public import tfxio
'culmen_length_mm', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g'
_LABEL_KEY = 'species'
# Since we're not generating or creating a schema, we will instead create
# a feature spec. Since there are a fairly small number of features this is
# manageable for this dataset.
feature: tf.io.FixedLenFeature(shape=[1], dtype=tf.float32)
for feature in _FEATURE_KEYS
}, _LABEL_KEY: tf.io.FixedLenFeature(shape=[1], dtype=tf.int64)
def _input_fn(file_pattern: List[str],
data_accessor: tfx.components.DataAccessor,
schema: schema_pb2.Schema,
batch_size: int) -> tf.data.Dataset:
"""Generates features and label for training.
file_pattern: List of paths or patterns of input tfrecord files.
data_accessor: DataAccessor for converting input to RecordBatch.
schema: schema of the input data.
batch_size: representing the number of consecutive elements of returned
dataset to combine in a single batch
A dataset that contains (features, indices) tuple where features is a
dictionary of Tensors, and indices is a single Tensor of label indices.
return data_accessor.tf_dataset_factory(
batch_size=batch_size, label_key=_LABEL_KEY),
def _make_keras_model() -> tf.keras.Model:
"""Creates a DNN Keras model for classifying penguin data.
A Keras Model.
# The model below is built with Functional API, please refer to
# https://www.tensorflow.org/guide/keras/overview for all API options.
inputs = [keras.layers.Input(shape=(1,), name=f) for f in _FEATURE_KEYS]
d = keras.layers.concatenate(inputs)
for _ in range(2):
d = keras.layers.Dense(8, activation='relu')(d)
outputs = keras.layers.Dense(3)(d)
model = keras.Model(inputs=inputs, outputs=outputs)
return model
# NEW: Read `use_gpu` from the custom_config of the Trainer.
# if it uses GPU, enable MirroredStrategy.
def _get_distribution_strategy(fn_args: tfx.components.FnArgs):
if fn_args.custom_config.get('use_gpu', False):
logging.info('Using MirroredStrategy with one GPU.')
return tf.distribute.MirroredStrategy(devices=['device:GPU:0'])
return None
# TFX Trainer will call this function.
def run_fn(fn_args: tfx.components.FnArgs):
"""Train the model based on given args.
fn_args: Holds args used to train the model as name/value pairs.
# This schema is usually either an output of SchemaGen or a manually-curated
# version provided by pipeline author. A schema can also derived from TFT
# graph if a Transform component is used. In the case when either is missing,
# `schema_from_feature_spec` could be used to generate schema from very simple
# feature_spec, but the schema returned would be very primitive.
schema = schema_utils.schema_from_feature_spec(_FEATURE_SPEC)
train_dataset = _input_fn(
eval_dataset = _input_fn(
# NEW: If we have a distribution strategy, build a model in a strategy scope.
strategy = _get_distribution_strategy(fn_args)
if strategy is None:
model = _make_keras_model()
with strategy.scope():
model = _make_keras_model()
# The result of the training should be saved in `fn_args.serving_model_dir`
# directory.
model.save(fn_args.serving_model_dir, save_format='tf')
Writing penguin_trainer.py
मॉड्यूल फ़ाइल को GCS में कॉपी करें जिसे पाइपलाइन घटकों से एक्सेस किया जा सकता है।
अन्यथा, आप मॉड्यूल फ़ाइल सहित एक कंटेनर छवि बनाना चाहते हैं और पाइपलाइन और एआई प्लेटफार्म प्रशिक्षण नौकरियों को चलाने के लिए छवि का उपयोग कर सकते हैं।
gsutil cp {_trainer_module_file} {MODULE_ROOT}/
InvalidUrlError: Cloud URL scheme should be followed by colon and two slashes: "://". Found: "gs:///pipeline_module/penguin-vertex-training/".
एक पाइपलाइन परिभाषा लिखें
हम TFX पाइपलाइन बनाने के लिए एक फ़ंक्शन को परिभाषित करेंगे। यह में के रूप में ही तीन घटक होते हैं सरल TFX पाइपलाइन ट्यूटोरियल है, लेकिन हम एक का उपयोग Trainer
और Pusher
जीसीपी विस्तार मॉड्यूल में घटक।
एक नियमित रूप से की तरह बर्ताव करती है Trainer
, लेकिन यह सिर्फ बादल करने के लिए मॉडल के प्रशिक्षण के लिए गणना ले जाता है। यह वर्टेक्स एआई ट्रेनिंग सर्विस में एक कस्टम जॉब लॉन्च करता है और ऑर्केस्ट्रेशन सिस्टम में ट्रेनर कंपोनेंट वर्टेक्स एआई ट्रेनिंग जॉब पूरा होने तक इंतजार करेगा।
प्रशिक्षित मॉडल का उपयोग कर एक शीर्ष ऐ मॉडल और एक वर्टेक्स ऐ Endpoint पैदा करता है।
def _create_pipeline(pipeline_name: str, pipeline_root: str, data_root: str,
module_file: str, endpoint_name: str, project_id: str,
region: str, use_gpu: bool) -> tfx.dsl.Pipeline:
"""Implements the penguin pipeline with TFX."""
# Brings data into the pipeline or otherwise joins/converts training data.
example_gen = tfx.components.CsvExampleGen(input_base=data_root)
# NEW: Configuration for Vertex AI Training.
# This dictionary will be passed as `CustomJobSpec`.
vertex_job_spec = {
'project': project_id,
'worker_pool_specs': [{
'machine_spec': {
'machine_type': 'n1-standard-4',
'replica_count': 1,
'container_spec': {
'image_uri': 'gcr.io/tfx-oss-public/tfx:{}'.format(tfx.__version__),
if use_gpu:
# See https://cloud.google.com/vertex-ai/docs/reference/rest/v1/MachineSpec#acceleratortype
# for available machine types.
'accelerator_type': 'NVIDIA_TESLA_K80',
'accelerator_count': 1
# Trains a model using Vertex AI Training.
# NEW: We need to specify a Trainer for GCP with related configs.
trainer = tfx.extensions.google_cloud_ai_platform.Trainer(
# NEW: Configuration for pusher.
vertex_serving_spec = {
'project_id': project_id,
'endpoint_name': endpoint_name,
# Remaining argument is passed to aiplatform.Model.deploy()
# See https://cloud.google.com/vertex-ai/docs/predictions/deploy-model-api#deploy_the_model
# for the detail.
# Machine type is the compute resource to serve prediction requests.
# See https://cloud.google.com/vertex-ai/docs/predictions/configure-compute#machine-types
# for available machine types and acccerators.
'machine_type': 'n1-standard-4',
# Vertex AI provides pre-built containers with various configurations for
# serving.
# See https://cloud.google.com/vertex-ai/docs/predictions/pre-built-containers
# for available container images.
serving_image = 'us-docker.pkg.dev/vertex-ai/prediction/tf2-cpu.2-6:latest'
if use_gpu:
'accelerator_type': 'NVIDIA_TESLA_K80',
'accelerator_count': 1
serving_image = 'us-docker.pkg.dev/vertex-ai/prediction/tf2-gpu.2-6:latest'
# NEW: Pushes the model to Vertex AI.
pusher = tfx.extensions.google_cloud_ai_platform.Pusher(
components = [
return tfx.dsl.Pipeline(
वर्टेक्स पाइपलाइनों पर पाइपलाइन चलाएँ।
हम के रूप में हम में किया था पाइप लाइन को चलाने के लिए वर्टेक्स पाइपलाइन का उपयोग करेगा वर्टेक्स पाइपलाइन ट्यूटोरियल के लिए सरल TFX पाइपलाइन ।
import os
runner = tfx.orchestration.experimental.KubeflowV2DagRunner(
_ = runner.run(
module_file=os.path.join(MODULE_ROOT, _trainer_module_file),
# We will use CPUs only for now.
उत्पन्न परिभाषा फ़ाइल में Google मेघ aiplatform ग्राहक का उपयोग कर प्रस्तुत किया जा सकता google-cloud-aiplatform
# docs_infra: no_execute
from google.cloud import aiplatform
from google.cloud.aiplatform import pipeline_jobs
aiplatform.init(project=GOOGLE_CLOUD_PROJECT, location=GOOGLE_CLOUD_REGION)
job = pipeline_jobs.PipelineJob(template_path=PIPELINE_DEFINITION_FILE,
अब आप यात्रा कर सकते हैं 'वर्टेक्स ऐ> पाइपलाइन' में Google Cloud Console
प्रगति देखने के लिए।
एक भविष्यवाणी अनुरोध के साथ परीक्षण करें
एक बार जब पाइपलाइन पूरा करता है, आप 'वर्टेक्स ऐ> अंतिम बिंदु' में अंतिम बिंदुओं में से एक में एक तैनात मॉडल मिल जाएगा। हमें नए समापन बिंदु पर एक पूर्वानुमान अनुरोध भेजने के लिए समापन बिंदु की आईडी जानने की आवश्यकता है। यह हम ऊपर दर्ज किए गए endpoint नाम से भिन्न है। आपको कम से आईडी पा सकते हैं Endpoints पेज में Google Cloud Console
, यह एक बहुत लंबे समय तक नंबर की तरह लग रहा है।
ENDPOINT_ID को चलाने से पहले नीचे सेट करें।
from absl import logging
logging.error('Please set the endpoint id.')
ERROR:absl:Please set the endpoint id.
हम समापन बिंदु पर अनुरोध भेजने के लिए उसी aiplatform क्लाइंट का उपयोग करते हैं। हम पेंगुइन प्रजातियों के वर्गीकरण के लिए एक पूर्वानुमान अनुरोध भेजेंगे। इनपुट चार विशेषताएं हैं जिनका हमने उपयोग किया है, और मॉडल तीन मान लौटाएगा, क्योंकि हमारा मॉडल प्रत्येक प्रजाति के लिए एक मान आउटपुट करता है।
उदाहरण के लिए, निम्न विशिष्ट उदाहरण का सूचकांक '2' पर सबसे बड़ा मान है और '2' प्रिंट करेगा।
# docs_infra: no_execute
import numpy as np
# The AI Platform services require regional API endpoints.
client_options = {
'api_endpoint': GOOGLE_CLOUD_REGION + '-aiplatform.googleapis.com'
# Initialize client that will be used to create and send requests.
client = aiplatform.gapic.PredictionServiceClient(client_options=client_options)
# Set data values for the prediction request.
# Our model expects 4 feature inputs and produces 3 output values for each
# species. Note that the output is logit value rather than probabilities.
# See the model code to understand input / output structure.
instances = [{
'body_mass_g': [0.78],
endpoint = client.endpoint_path(
# Send a prediction request and get response.
response = client.predict(endpoint=endpoint, instances=instances)
# Uses argmax to find the index of the maximum value.
print('species:', np.argmax(response.predictions[0]))
ऑनलाइन भविष्यवाणी बारे में विस्तृत जानकारी के लिए कृपया देखें Endpoints पेज में Google Cloud Console
। आप अधिक संसाधनों के लिए नमूना अनुरोध और लिंक भेजने पर एक गाइड पा सकते हैं।
GPU का उपयोग करके पाइपलाइन चलाएं
वर्टेक्स एआई GPU के लिए समर्थन सहित विभिन्न मशीन प्रकारों का उपयोग करके प्रशिक्षण का समर्थन करता है। देखें मशीन कल्पना संदर्भ उपलब्ध विकल्पों के लिए।
हमने GPU प्रशिक्षण का समर्थन करने के लिए अपनी पाइपलाइन को पहले ही परिभाषित कर दिया है। हमें बस की जरूरत है स्थापित करने है use_gpu
सही पर झंडा। फिर एक पाइप लाइन के लिए एक मशीन एक NVIDIA_TESLA_K80 और हमारे मॉडल प्रशिक्षण कोड सहित का उपयोग करेगा कल्पना के साथ बनाया जाएगा tf.distribute.MirroredStrategy
ध्यान दें कि use_gpu
झंडा वर्टेक्स या TFX एपीआई का एक हिस्सा नहीं है। इसका उपयोग इस ट्यूटोरियल में प्रशिक्षण कोड को नियंत्रित करने के लिए किया जाता है।
# docs_infra: no_execute
module_file=os.path.join(MODULE_ROOT, _trainer_module_file),
# Updated: Use GPUs. We will use a NVIDIA_TESLA_K80 and
# the model code will use tf.distribute.MirroredStrategy.
job = pipeline_jobs.PipelineJob(template_path=PIPELINE_DEFINITION_FILE,
अब आप यात्रा कर सकते हैं 'वर्टेक्स ऐ> पाइपलाइन' में Google Cloud Console
प्रगति देखने के लिए।
सफाई करना
आपने इस ट्यूटोरियल में वर्टेक्स एआई मॉडल और एंडपॉइंट बनाया है। में जाकर किसी भी अनचाहे शुल्क से बचने के लिए इन संसाधनों हटा दें Endpoints और अंत बिंदु से मॉडल undeploying पहले। फिर आप समापन बिंदु और मॉडल को अलग-अलग हटा सकते हैं।