Bu not defteri tabanlı öğreticide, ham girdi verilerini almak ve bunları makine öğrenimi eğitimi için uygun şekilde önceden işlemek için bir TFX ardışık düzeni oluşturup çalıştıracağız. Bu defter biz inşa TFX boru hattı dayanmaktadır TFX Boru Hattı ve TensorFlow Veri Doğrulama Eğitimi kullanarak veri doğrulama . Henüz okumadıysanız, bu deftere geçmeden önce okumalısınız.
Özellik mühendisliği ile verilerinizin tahmine dayalı kalitesini artırabilir ve/veya boyutluluğu azaltabilirsiniz. TFX kullanmanın faydalarından biri, dönüşüm kodunuzu bir kez yazmanız ve eğitim/hizmet çarpıklığını önlemek için elde edilen dönüşümlerin eğitim ve sunum arasında tutarlı olmasıdır.
Biz katacak Transform
boru hattına bileşeni. Transform bileşeni kullanılarak uygulanır tf.transform kütüphanesi.
Bakınız TFX Boru hatları anlama Tfx çeşitli kavramlar hakkında daha fazla bilgi edinmek.
Öncelikle TFX Python paketini kurmamız ve modelimiz için kullanacağımız veri setini indirmemiz gerekiyor.
Pip'i Yükselt
Yerel olarak çalışırken bir sistemde Pip'i yükseltmekten kaçınmak için Colab'da çalıştığımızdan emin olun. Yerel sistemler elbette ayrı ayrı yükseltilebilir.
import colab
!pip install --upgrade pip
TFX'i yükleyin
pip install -U tfx
Çalışma zamanını yeniden başlattınız mı?
Google Colab kullanıyorsanız, yukarıdaki hücreyi ilk kez çalıştırdığınızda, yukarıdaki "ÇALIŞTIRMA ZAMINI YENİDEN BAŞLAT" düğmesini tıklayarak veya "Çalışma Zamanı > Çalışma zamanını yeniden başlat ..." menüsünü kullanarak çalışma zamanını yeniden başlatmanız gerekir. Bunun nedeni Colab'ın paketleri yükleme şeklidir.
TensorFlow ve TFX sürümlerini kontrol edin.
import tensorflow as tf
print('TensorFlow version: {}'.format(tf.__version__))
from tfx import v1 as tfx
print('TFX version: {}'.format(tfx.__version__))
TensorFlow version: 2.6.2 TFX version: 1.4.0
Değişkenleri ayarla
Bir boru hattını tanımlamak için kullanılan bazı değişkenler vardır. Bu değişkenleri istediğiniz gibi özelleştirebilirsiniz. Varsayılan olarak, işlem hattından gelen tüm çıktılar geçerli dizin altında oluşturulacaktır.
import os
PIPELINE_NAME = "penguin-transform"
# Output directory to store artifacts generated from the pipeline.
PIPELINE_ROOT = os.path.join('pipelines', PIPELINE_NAME)
# Path to a SQLite DB file to use as an MLMD storage.
METADATA_PATH = os.path.join('metadata', PIPELINE_NAME, 'metadata.db')
# Output directory where created models from the pipeline will be exported.
SERVING_MODEL_DIR = os.path.join('serving_model', PIPELINE_NAME)
from absl import logging
logging.set_verbosity(logging.INFO) # Set default logging level.
Örnek verileri hazırlayın
TFX ardışık düzenimizde kullanmak için örnek veri kümesini indireceğiz. Kullandığımız veri kümesi olan Palmer Penguenler veri kümesi .
Ancak, zaten ön işlenen veri kümesi kullanılan önceki öğreticiler aksine çiğ Palmer Penguenler veri kümesi kullanır.
TFX ExampleGen bileşeni bir dizinden girdileri okuduğundan, bir dizin oluşturmamız ve veri kümesini ona kopyalamamız gerekir.
import urllib.request
import tempfile
DATA_ROOT = tempfile.mkdtemp(prefix='tfx-data') # Create a temporary directory.
_data_path = ''
_data_filepath = os.path.join(DATA_ROOT, "data.csv")
urllib.request.urlretrieve(_data_path, _data_filepath)
('/tmp/tfx-dataacmxfq9f/data.csv', <http.client.HTTPMessage at 0x7f5b0ab1bf10>)
Ham verilerin nasıl göründüğüne hızlıca bir göz atın.
head {_data_filepath}
species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex Adelie,Torgersen,39.1,18.7,181,3750,MALE Adelie,Torgersen,39.5,17.4,186,3800,FEMALE Adelie,Torgersen,40.3,18,195,3250,FEMALE Adelie,Torgersen,NA,NA,NA,NA,NA Adelie,Torgersen,36.7,19.3,193,3450,FEMALE Adelie,Torgersen,39.3,20.6,190,3650,MALE Adelie,Torgersen,38.9,17.8,181,3625,FEMALE Adelie,Torgersen,39.2,19.6,195,4675,MALE Adelie,Torgersen,34.1,18.1,193,3475,NA
Olarak temsil edilir değerleri eksik olan bazı kayıtlar vardır NA
. Bu eğitimdeki bu girişleri sileceğiz.
sed -i '/\bNA\b/d' {_data_filepath}
head {_data_filepath}
species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex Adelie,Torgersen,39.1,18.7,181,3750,MALE Adelie,Torgersen,39.5,17.4,186,3800,FEMALE Adelie,Torgersen,40.3,18,195,3250,FEMALE Adelie,Torgersen,36.7,19.3,193,3450,FEMALE Adelie,Torgersen,39.3,20.6,190,3650,MALE Adelie,Torgersen,38.9,17.8,181,3625,FEMALE Adelie,Torgersen,39.2,19.6,195,4675,MALE Adelie,Torgersen,41.1,17.6,182,3200,FEMALE Adelie,Torgersen,38.6,21.2,191,3800,MALE
Penguenleri tanımlayan yedi özelliği görebilmeniz gerekir. Önceki derslerle aynı özellikleri kullanacağız - 'culmen_length_mm', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' - ve bir penguenin 'türlerini' tahmin edeceğiz.
Tek fark, giriş verilerinin önceden işlenmemiş olmasıdır. Bu eğitimde 'ada' veya 'seks' gibi diğer özellikleri kullanmayacağımızı unutmayın.
Bir şema dosyası hazırlayın
Anlatıldığı gibi TFX Boru Hattı ve TensorFlow Veri Doğrulama Eğitimi kullanarak Veri doğrulama , biz veri kümesi için bir şema dosyası gerekir. Veri seti önceki öğreticiden farklı olduğu için onu tekrar oluşturmamız gerekiyor. Bu derste, bu adımları atlayacağız ve sadece hazırlanmış bir şema dosyası kullanacağız.
import shutil
SCHEMA_PATH = 'schema'
_schema_uri = ''
_schema_filename = 'schema.pbtxt'
_schema_filepath = os.path.join(SCHEMA_PATH, _schema_filename)
os.makedirs(SCHEMA_PATH, exist_ok=True)
urllib.request.urlretrieve(_schema_uri, _schema_filepath)
('schema/schema.pbtxt', <http.client.HTTPMessage at 0x7f5b0ab20f50>)
Bu şema dosyası, herhangi bir manuel değişiklik yapılmadan önceki öğreticidekiyle aynı işlem hattıyla oluşturulmuştur.
Bir işlem hattı oluşturun
TFX ardışık düzenleri Python API'leri kullanılarak tanımlanır. Biz eklemeyi yapar Transform
biz oluşturulan boru hattına bileşeni Veri Doğrulama öğretici .
Bir dönüştürme bileşeni bir giriş verilerini gerektirir ExampleGen
bileşeni ve bir bir şema SchemaGen
bileşeni ve bir "grafiği dönüşümü" üretir. Çıktısı kullanılacak Trainer
bileşeni. Dönüştürme, isteğe bağlı olarak, dönüşümden sonra somutlaşan veriler olan "dönüştürülmüş veriler" de üretebilir. Ancak, bu öğreticide eğitim sırasında verileri, ara dönüştürülmüş verileri somutlaştırmadan dönüştüreceğiz.
Nota bir şey biz bir Python işlevini tanımlamak gerekir olmasıdır preprocessing_fn
giriş veri dönüştürülmesi gerektiğini nasıl açıklamak için. Bu, aynı zamanda model tanımı için kullanıcı kodu gerektiren bir Eğitmen bileşenine benzer.
Ön işleme ve eğitim kodu yazın
İki Python işlevi tanımlamamız gerekiyor. Biri Dönüştürme için, diğeri Eğitmen için.
Transform bileşeni fonksiyonunu adında bulacaksınız preprocessing_fn
biz yaptığımız gibi verilen modül dosyasında Trainer
bileşeni. Ayrıca kullanarak belirli bir işlev belirtebilirsiniz preprocessing_fn
parametreyi Transform bileşenin.
Bu örnekte iki tür dönüşüm yapacağız. Gibi sürekli sayısal özellikler için culmen_length_mm
ve body_mass_g
, biz kullanarak bu değerleri normale olacaktır tft.scale_to_z_score işlevi. Etiket özelliği için string etiketlerini sayısal indeks değerlerine dönüştürmemiz gerekiyor. Biz kullanacağız tf.lookup.StaticHashTable
dönüşüm için.
Kolayca dönüştürülmüş alanları belirlemek için, bir ekleme _xf
dönüştürülmüş özellik adlarına son ek.
Modelin kendisi önceki öğreticilerdekiyle hemen hemen aynıdır, ancak bu sefer Transform bileşenindeki dönüşüm grafiğini kullanarak girdi verilerini dönüştüreceğiz.
Önceki öğreticiye kıyasla daha önemli bir fark, artık yalnızca modelin hesaplama grafiğini değil, aynı zamanda Dönüştür bileşeninde oluşturulan ön işleme için dönüşüm grafiğini de içeren bir modeli hizmet için dışa aktarıyor olmamızdır. Gelen isteklere hizmet vermek için kullanılacak ayrı bir fonksiyon tanımlamamız gerekiyor. Aynı işlevi olduğunu görebilirsiniz _apply_preprocessing
eğitim verileri ve hizmet talebinin ikisi için kullanıldı.
_module_file = ''
%%writefile {_module_file}
from typing import List, Text
from absl import logging
import tensorflow as tf
from tensorflow import keras
from tensorflow_metadata.proto.v0 import schema_pb2
import tensorflow_transform as tft
from tensorflow_transform.tf_metadata import schema_utils
from tfx import v1 as tfx
from tfx_bsl.public import tfxio
# Specify features that we will use.
'culmen_length_mm', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g'
_LABEL_KEY = 'species'
# NEW: TFX Transform will call this function.
def preprocessing_fn(inputs):
"""tf.transform's callback function for preprocessing inputs.
inputs: map from feature keys to raw not-yet-transformed features.
Map from string feature key to transformed feature.
outputs = {}
# Uses features defined in _FEATURE_KEYS only.
for key in _FEATURE_KEYS:
# tft.scale_to_z_score computes the mean and variance of the given feature
# and scales the output based on the result.
outputs[key] = tft.scale_to_z_score(inputs[key])
# For the label column we provide the mapping from string to index.
# We could instead use `tft.compute_and_apply_vocabulary()` in order to
# compute the vocabulary dynamically and perform a lookup.
# Since in this example there are only 3 possible values, we use a hard-coded
# table for simplicity.
table_keys = ['Adelie', 'Chinstrap', 'Gentoo']
initializer = tf.lookup.KeyValueTensorInitializer(
values=tf.cast(tf.range(len(table_keys)), tf.int64),
table = tf.lookup.StaticHashTable(initializer, default_value=-1)
outputs[_LABEL_KEY] = table.lookup(inputs[_LABEL_KEY])
return outputs
# NEW: This function will apply the same transform operation to training data
# and serving requests.
def _apply_preprocessing(raw_features, tft_layer):
transformed_features = tft_layer(raw_features)
if _LABEL_KEY in raw_features:
transformed_label = transformed_features.pop(_LABEL_KEY)
return transformed_features, transformed_label
return transformed_features, None
# NEW: This function will create a handler function which gets a serialized
# tf.example, preprocess and run an inference with it.
def _get_serve_tf_examples_fn(model, tf_transform_output):
# We must save the tft_layer to the model to ensure its assets are kept and
# tracked.
model.tft_layer = tf_transform_output.transform_features_layer()
tf.TensorSpec(shape=[None], dtype=tf.string, name='examples')
def serve_tf_examples_fn(serialized_tf_examples):
# Expected input is a string which is serialized tf.Example format.
feature_spec = tf_transform_output.raw_feature_spec()
# Because input schema includes unnecessary fields like 'species' and
# 'island', we filter feature_spec to include required keys only.
required_feature_spec = {
k: v for k, v in feature_spec.items() if k in _FEATURE_KEYS
parsed_features =,
# Preprocess parsed input with transform operation defined in
# preprocessing_fn().
transformed_features, _ = _apply_preprocessing(parsed_features,
# Run inference with ML model.
return model(transformed_features)
return serve_tf_examples_fn
def _input_fn(file_pattern: List[Text],
data_accessor: tfx.components.DataAccessor,
tf_transform_output: tft.TFTransformOutput,
batch_size: int = 200) ->
"""Generates features and label for tuning/training.
file_pattern: List of paths or patterns of input tfrecord files.
data_accessor: DataAccessor for converting input to RecordBatch.
tf_transform_output: A TFTransformOutput.
batch_size: representing the number of consecutive elements of returned
dataset to combine in a single batch
A dataset that contains (features, indices) tuple where features is a
dictionary of Tensors, and indices is a single Tensor of label indices.
dataset = data_accessor.tf_dataset_factory(
transform_layer = tf_transform_output.transform_features_layer()
def apply_transform(raw_features):
return _apply_preprocessing(raw_features, transform_layer)
def _build_keras_model() -> tf.keras.Model:
"""Creates a DNN Keras model for classifying penguin data.
A Keras Model.
# The model below is built with Functional API, please refer to
# for all API options.
inputs = [
keras.layers.Input(shape=(1,), name=key)
for key in _FEATURE_KEYS
d = keras.layers.concatenate(inputs)
for _ in range(2):
d = keras.layers.Dense(8, activation='relu')(d)
outputs = keras.layers.Dense(3)(d)
model = keras.Model(inputs=inputs, outputs=outputs)
return model
# TFX Trainer will call this function.
def run_fn(fn_args: tfx.components.FnArgs):
"""Train the model based on given args.
fn_args: Holds args used to train the model as name/value pairs.
tf_transform_output = tft.TFTransformOutput(fn_args.transform_output)
train_dataset = _input_fn(
eval_dataset = _input_fn(
model = _build_keras_model()
# NEW: Save a computation graph including transform layer.
signatures = {
'serving_default': _get_serve_tf_examples_fn(model, tf_transform_output),
}, save_format='tf', signatures=signatures)
Artık bir TFX işlem hattı oluşturmak için tüm hazırlık adımlarını tamamladınız.
Bir işlem hattı tanımı yazın
Bir TFX boru hattı oluşturmak için bir fonksiyon tanımlıyoruz. Bir Pipeline
nesne hattı düzenleme sistemleri bu TFX desteklerinden biri kullanılarak çalıştırılabilir bir TFX boru hattı temsil etmektedir.
def _create_pipeline(pipeline_name: str, pipeline_root: str, data_root: str,
schema_path: str, module_file: str, serving_model_dir: str,
metadata_path: str) -> tfx.dsl.Pipeline:
"""Implements the penguin pipeline with TFX."""
# Brings data into the pipeline or otherwise joins/converts training data.
example_gen = tfx.components.CsvExampleGen(input_base=data_root)
# Computes statistics over data for visualization and example validation.
statistics_gen = tfx.components.StatisticsGen(
# Import the schema.
schema_importer = tfx.dsl.Importer(
# Performs anomaly detection based on statistics and data schema.
example_validator = tfx.components.ExampleValidator(
# NEW: Transforms input data using preprocessing_fn in the 'module_file'.
transform = tfx.components.Transform(
# Uses user-provided Python function that trains a model.
trainer = tfx.components.Trainer(
# NEW: Pass transform_graph to the trainer.
# Pushes the model to a filesystem destination.
pusher = tfx.components.Pusher(
components = [
transform, # NEW: Transform component was added to the pipeline.
return tfx.dsl.Pipeline(
Boru hattını çalıştırın
Biz kullanacağız LocalDagRunner
önceki öğretici olduğu gibi.
INFO:absl:Component ExampleValidator is running. INFO:absl:Running launcher for node_info { type { name: "tfx.components.example_validator.component.ExampleValidator" } id: "ExampleValidator" } contexts { contexts { type { name: "pipeline" } name { field_value { string_value: "penguin-transform" } } } contexts { type { name: "pipeline_run" } name { field_value { string_value: "2021-12-05T10:21:51.187624" } } } contexts { type { name: "node" } name { field_value { string_value: "penguin-transform.ExampleValidator" } } } } inputs { inputs { key: "schema" value { channels { producer_node_query { id: "schema_importer" } context_queries { type { name: "pipeline" } name { field_value { string_value: "penguin-transform" } } } context_queries { type { name: "pipeline_run" } name { field_value { string_value: "2021-12-05T10:21:51.187624" } } } context_queries { type { name: "node" } name { field_value { string_value: "penguin-transform.schema_importer" } } } artifact_query { type { name: "Schema" } } output_key: "result" } min_count: 1 } } inputs { key: "statistics" value { channels { producer_node_query { id: "StatisticsGen" } context_queries { type { name: "pipeline" } name { field_value { string_value: "penguin-transform" } } } context_queries { type { name: "pipeline_run" } name { field_value { string_value: "2021-12-05T10:21:51.187624" } } } context_queries { type { name: "node" } name { field_value { string_value: "penguin-transform.StatisticsGen" } } } artifact_query { type { name: "ExampleStatistics" } } output_key: "statistics" } min_count: 1 } } } outputs { outputs { key: "anomalies" value { artifact_spec { type { name: "ExampleAnomalies" properties { key: "span" value: INT } properties { key: "split_names" value: STRING } } } } } } parameters { parameters { key: "exclude_splits" value { field_value { string_value: "[]" } } } } upstream_nodes: "StatisticsGen" upstream_nodes: "schema_importer" execution_options { caching_options { } } INFO:absl:MetadataStore with DB connection initialized I1205 10:22:11.732254 24712] No property is defined for the Type INFO:absl:MetadataStore with DB connection initialized INFO:absl:Going to run a new execution 5 INFO:absl:Going to run a new execution: ExecutionInfo(execution_id=5, input_dict={'schema': [Artifact(artifact: id: 2 type_id: 17 uri: "schema" custom_properties { key: "tfx_version" value { string_value: "1.4.0" } } state: LIVE create_time_since_epoch: 1638699713343 last_update_time_since_epoch: 1638699713343 , artifact_type: id: 17 name: "Schema" )], 'statistics': [Artifact(artifact: id: 3 type_id: 19 uri: "pipelines/penguin-transform/StatisticsGen/statistics/3" properties { key: "split_names" value { string_value: "[\"train\", \"eval\"]" } } custom_properties { key: "name" value { string_value: "penguin-transform:2021-12-05T10:21:51.187624:StatisticsGen:statistics:0" } } custom_properties { key: "tfx_version" value { string_value: "1.4.0" } } state: LIVE create_time_since_epoch: 1638699716011 last_update_time_since_epoch: 1638699716011 , artifact_type: id: 19 name: "ExampleStatistics" properties { key: "span" value: INT } properties { key: "split_names" value: STRING } )]}, output_dict=defaultdict(<class 'list'>, {'anomalies': [Artifact(artifact: uri: "pipelines/penguin-transform/ExampleValidator/anomalies/5" custom_properties { key: "name" value { string_value: "penguin-transform:2021-12-05T10:21:51.187624:ExampleValidator:anomalies:0" } } , artifact_type: name: "ExampleAnomalies" properties { key: "span" value: INT } properties { key: "split_names" value: STRING } )]}), exec_properties={'exclude_splits': '[]'}, execution_output_uri='pipelines/penguin-transform/ExampleValidator/.system/executor_execution/5/executor_output.pb', stateful_working_dir='pipelines/penguin-transform/ExampleValidator/.system/stateful_working_dir/2021-12-05T10:21:51.187624', tmp_dir='pipelines/penguin-transform/ExampleValidator/.system/executor_execution/5/.temp/', pipeline_node=node_info { type { name: "tfx.components.example_validator.component.ExampleValidator" } id: "ExampleValidator" } contexts { contexts { type { name: "pipeline" } name { field_value { string_value: "penguin-transform" } } } contexts { type { name: "pipeline_run" } name { field_value { string_value: "2021-12-05T10:21:51.187624" } } } contexts { type { name: "node" } name { field_value { string_value: "penguin-transform.ExampleValidator" } } } } inputs { inputs { key: "schema" value { channels { producer_node_query { id: "schema_importer" } context_queries { type { name: "pipeline" } name { field_value { string_value: "penguin-transform" } } } context_queries { type { name: "pipeline_run" } name { field_value { string_value: "2021-12-05T10:21:51.187624" } } } context_queries { type { name: "node" } name { field_value { string_value: "penguin-transform.schema_importer" } } } artifact_query { type { name: "Schema" } } output_key: "result" } min_count: 1 } } inputs { key: "statistics" value { channels { producer_node_query { id: "StatisticsGen" } context_queries { type { name: "pipeline" } name { field_value { string_value: "penguin-transform" } } } context_queries { type { name: "pipeline_run" } name { field_value { string_value: "2021-12-05T10:21:51.187624" } } } context_queries { type { name: "node" } name { field_value { string_value: "penguin-transform.StatisticsGen" } } } artifact_query { type { name: "ExampleStatistics" } } output_key: "statistics" } min_count: 1 } } } outputs { outputs { key: "anomalies" value { artifact_spec { type { name: "ExampleAnomalies" properties { key: "span" value: INT } properties { key: "split_names" value: STRING } } } } } } parameters { parameters { key: "exclude_splits" value { field_value { string_value: "[]" } } } } upstream_nodes: "StatisticsGen" upstream_nodes: "schema_importer" execution_options { caching_options { } } , pipeline_info=id: "penguin-transform" , pipeline_run_id='2021-12-05T10:21:51.187624') INFO:absl:Validating schema against the computed statistics for split train. INFO:absl:Validation complete for split train. Anomalies written to pipelines/penguin-transform/ExampleValidator/anomalies/5/Split-train. INFO:absl:Validating schema against the computed statistics for split eval. INFO:absl:Validation complete for split eval. Anomalies written to pipelines/penguin-transform/ExampleValidator/anomalies/5/Split-eval. INFO:absl:Cleaning up stateless execution info. INFO:absl:Execution 5 succeeded. INFO:absl:Cleaning up stateful execution info. INFO:absl:Publishing output artifacts defaultdict(<class 'list'>, {'anomalies': [Artifact(artifact: uri: "pipelines/penguin-transform/ExampleValidator/anomalies/5" custom_properties { key: "name" value { string_value: "penguin-transform:2021-12-05T10:21:51.187624:ExampleValidator:anomalies:0" } } custom_properties { key: "tfx_version" value { string_value: "1.4.0" } } , artifact_type: name: "ExampleAnomalies" properties { key: "span" value: INT } properties { key: "split_names" value: STRING } )]}) for execution 5 INFO:absl:MetadataStore with DB connection initialized INFO:absl:Component ExampleValidator is finished. INFO:absl:Component Trainer is running. INFO:absl:Running launcher for node_info { type { name: "tfx.components.trainer.component.Trainer" } id: "Trainer" } contexts { contexts { type { name: "pipeline" } name { field_value { string_value: "penguin-transform" } } } contexts { type { name: "pipeline_run" } name { field_value { string_value: "2021-12-05T10:21:51.187624" } } } contexts { type { name: "node" } name { field_value { string_value: "penguin-transform.Trainer" } } } } inputs { inputs { key: "examples" value { channels { producer_node_query { id: "CsvExampleGen" } context_queries { type { name: "pipeline" } name { field_value { string_value: "penguin-transform" } } } context_queries { type { name: "pipeline_run" } name { field_value { string_value: "2021-12-05T10:21:51.187624" } } } context_queries { type { name: "node" } name { field_value { string_value: "penguin-transform.CsvExampleGen" } } } artifact_query { type { name: "Examples" } } output_key: "examples" } min_count: 1 } } inputs { key: "transform_graph" value { channels { producer_node_query { id: "Transform" } context_queries { type { name: "pipeline" } name { field_value { string_value: "penguin-transform" } } } context_queries { type { name: "pipeline_run" } name { field_value { string_value: "2021-12-05T10:21:51.187624" } } } context_queries { type { name: "node" } name { field_value { string_value: "penguin-transform.Transform" } } } artifact_query { type { name: "TransformGraph" } } output_key: "transform_graph" } } } } outputs { outputs { key: "model" value { artifact_spec { type { name: "Model" } } } } outputs { key: "model_run" value { artifact_spec { type { name: "ModelRun" } } } } } parameters { parameters { key: "custom_config" value { field_value { string_value: "null" } } } parameters { key: "eval_args" value { field_value { string_value: "{\n \"num_steps\": 5\n}" } } } parameters { key: "module_path" value { field_value { string_value: "penguin_utils@pipelines/penguin-transform/_wheels/tfx_user_code_Trainer-0.0+a5e9139bd7facf5026b5306a6aea534f89db0dea58ebe1bb1fb5ebb9df5fdea9-py3-none-any.whl" } } } parameters { key: "train_args" value { field_value { string_value: "{\n \"num_steps\": 100\n}" } } } } upstream_nodes: "CsvExampleGen" upstream_nodes: "Transform" downstream_nodes: "Pusher" execution_options { caching_options { } } INFO:absl:MetadataStore with DB connection initialized I1205 10:22:11.785852 24712] No property is defined for the Type INFO:absl:MetadataStore with DB connection initialized INFO:absl:Going to run a new execution 6 INFO:absl:Going to run a new execution: ExecutionInfo(execution_id=6, input_dict={'examples': [Artifact(artifact: id: 1 type_id: 15 uri: "pipelines/penguin-transform/CsvExampleGen/examples/1" properties { key: "split_names" value { string_value: "[\"train\", \"eval\"]" } } custom_properties { key: "file_format" value { string_value: "tfrecords_gzip" } } custom_properties { key: "input_fingerprint" value { string_value: "split:single_split,num_files:1,total_bytes:13161,xor_checksum:1638699709,sum_checksum:1638699709" } } custom_properties { key: "name" value { string_value: "penguin-transform:2021-12-05T10:21:51.187624:CsvExampleGen:examples:0" } } custom_properties { key: "payload_format" value { string_value: "FORMAT_TF_EXAMPLE" } } custom_properties { key: "span" value { int_value: 0 } } custom_properties { key: "tfx_version" value { string_value: "1.4.0" } } state: LIVE create_time_since_epoch: 1638699713316 last_update_time_since_epoch: 1638699713316 , artifact_type: id: 15 name: "Examples" properties { key: "span" value: INT } properties { key: "split_names" value: STRING } properties { key: "version" value: INT } )], 'transform_graph': [Artifact(artifact: id: 9 type_id: 23 uri: "pipelines/penguin-transform/Transform/transform_graph/4" custom_properties { key: "name" value { string_value: "penguin-transform:2021-12-05T10:21:51.187624:Transform:transform_graph:0" } } custom_properties { key: "tfx_version" value { string_value: "1.4.0" } } state: LIVE create_time_since_epoch: 1638699731712 last_update_time_since_epoch: 1638699731712 , artifact_type: id: 23 name: "TransformGraph" )]}, output_dict=defaultdict(<class 'list'>, {'model': [Artifact(artifact: uri: "pipelines/penguin-transform/Trainer/model/6" custom_properties { key: "name" value { string_value: "penguin-transform:2021-12-05T10:21:51.187624:Trainer:model:0" } } , artifact_type: name: "Model" )], 'model_run': [Artifact(artifact: uri: "pipelines/penguin-transform/Trainer/model_run/6" custom_properties { key: "name" value { string_value: "penguin-transform:2021-12-05T10:21:51.187624:Trainer:model_run:0" } } , artifact_type: name: "ModelRun" )]}), exec_properties={'custom_config': 'null', 'train_args': '{\n "num_steps": 100\n}', 'module_path': 'penguin_utils@pipelines/penguin-transform/_wheels/tfx_user_code_Trainer-0.0+a5e9139bd7facf5026b5306a6aea534f89db0dea58ebe1bb1fb5ebb9df5fdea9-py3-none-any.whl', 'eval_args': '{\n "num_steps": 5\n}'}, execution_output_uri='pipelines/penguin-transform/Trainer/.system/executor_execution/6/executor_output.pb', stateful_working_dir='pipelines/penguin-transform/Trainer/.system/stateful_working_dir/2021-12-05T10:21:51.187624', tmp_dir='pipelines/penguin-transform/Trainer/.system/executor_execution/6/.temp/', pipeline_node=node_info { type { name: "tfx.components.trainer.component.Trainer" } id: "Trainer" } contexts { contexts { type { name: "pipeline" } name { field_value { string_value: "penguin-transform" } } } contexts { type { name: "pipeline_run" } name { field_value { string_value: "2021-12-05T10:21:51.187624" } } } contexts { type { name: "node" } name { field_value { string_value: "penguin-transform.Trainer" } } } } inputs { inputs { key: "examples" value { channels { producer_node_query { id: "CsvExampleGen" } context_queries { type { name: "pipeline" } name { field_value { string_value: "penguin-transform" } } } context_queries { type { name: "pipeline_run" } name { field_value { string_value: "2021-12-05T10:21:51.187624" } } } context_queries { type { name: "node" } name { field_value { string_value: "penguin-transform.CsvExampleGen" } } } artifact_query { type { name: "Examples" } } output_key: "examples" } min_count: 1 } } inputs { key: "transform_graph" value { channels { producer_node_query { id: "Transform" } context_queries { type { name: "pipeline" } name { field_value { string_value: "penguin-transform" } } } context_queries { type { name: "pipeline_run" } name { field_value { string_value: "2021-12-05T10:21:51.187624" } } } context_queries { type { name: "node" } name { field_value { string_value: "penguin-transform.Transform" } } } artifact_query { type { name: "TransformGraph" } } output_key: "transform_graph" } } } } outputs { outputs { key: "model" value { artifact_spec { type { name: "Model" } } } } outputs { key: "model_run" value { artifact_spec { type { name: "ModelRun" } } } } } parameters { parameters { key: "custom_config" value { field_value { string_value: "null" } } } parameters { key: "eval_args" value { field_value { string_value: "{\n \"num_steps\": 5\n}" } } } parameters { key: "module_path" value { field_value { string_value: "penguin_utils@pipelines/penguin-transform/_wheels/tfx_user_code_Trainer-0.0+a5e9139bd7facf5026b5306a6aea534f89db0dea58ebe1bb1fb5ebb9df5fdea9-py3-none-any.whl" } } } parameters { key: "train_args" value { field_value { string_value: "{\n \"num_steps\": 100\n}" } } } } upstream_nodes: "CsvExampleGen" upstream_nodes: "Transform" downstream_nodes: "Pusher" execution_options { caching_options { } } , pipeline_info=id: "penguin-transform" , pipeline_run_id='2021-12-05T10:21:51.187624') INFO:absl:Train on the 'train' split when train_args.splits is not set. INFO:absl:Evaluate on the 'eval' split when eval_args.splits is not set. INFO:absl:udf_utils.get_fn {'custom_config': 'null', 'train_args': '{\n "num_steps": 100\n}', 'module_path': 'penguin_utils@pipelines/penguin-transform/_wheels/tfx_user_code_Trainer-0.0+a5e9139bd7facf5026b5306a6aea534f89db0dea58ebe1bb1fb5ebb9df5fdea9-py3-none-any.whl', 'eval_args': '{\n "num_steps": 5\n}'} 'run_fn' INFO:absl:Installing 'pipelines/penguin-transform/_wheels/tfx_user_code_Trainer-0.0+a5e9139bd7facf5026b5306a6aea534f89db0dea58ebe1bb1fb5ebb9df5fdea9-py3-none-any.whl' to a temporary directory. INFO:absl:Executing: ['/tmpfs/src/tf_docs_env/bin/python', '-m', 'pip', 'install', '--target', '/tmp/tmpfnmreae0', 'pipelines/penguin-transform/_wheels/tfx_user_code_Trainer-0.0+a5e9139bd7facf5026b5306a6aea534f89db0dea58ebe1bb1fb5ebb9df5fdea9-py3-none-any.whl'] Processing ./pipelines/penguin-transform/_wheels/tfx_user_code_Trainer-0.0+a5e9139bd7facf5026b5306a6aea534f89db0dea58ebe1bb1fb5ebb9df5fdea9-py3-none-any.whl INFO:absl:Successfully installed 'pipelines/penguin-transform/_wheels/tfx_user_code_Trainer-0.0+a5e9139bd7facf5026b5306a6aea534f89db0dea58ebe1bb1fb5ebb9df5fdea9-py3-none-any.whl'. INFO:absl:Training model. INFO:absl:Feature body_mass_g has a shape dim { size: 1 } . Setting to DenseTensor. INFO:absl:Feature culmen_depth_mm has a shape dim { size: 1 } . Setting to DenseTensor. INFO:absl:Feature culmen_length_mm has a shape dim { size: 1 } . Setting to DenseTensor. INFO:absl:Feature flipper_length_mm has a shape dim { size: 1 } . Setting to DenseTensor. INFO:absl:Feature island has a shape dim { size: 1 } . Setting to DenseTensor. INFO:absl:Feature sex has a shape dim { size: 1 } . Setting to DenseTensor. INFO:absl:Feature species has a shape dim { size: 1 } . Setting to DenseTensor. Installing collected packages: tfx-user-code-Trainer Successfully installed tfx-user-code-Trainer-0.0+a5e9139bd7facf5026b5306a6aea534f89db0dea58ebe1bb1fb5ebb9df5fdea9 INFO:tensorflow:tensorflow_text is not available. INFO:tensorflow:tensorflow_text is not available. INFO:tensorflow:tensorflow_decision_forests is not available. INFO:tensorflow:tensorflow_decision_forests is not available. INFO:tensorflow:struct2tensor is not available. INFO:tensorflow:struct2tensor is not available. INFO:absl:Feature body_mass_g has a shape dim { size: 1 } . Setting to DenseTensor. INFO:absl:Feature culmen_depth_mm has a shape dim { size: 1 } . Setting to DenseTensor. INFO:absl:Feature culmen_length_mm has a shape dim { size: 1 } . Setting to DenseTensor. INFO:absl:Feature flipper_length_mm has a shape dim { size: 1 } . Setting to DenseTensor. INFO:absl:Feature island has a shape dim { size: 1 } . Setting to DenseTensor. INFO:absl:Feature sex has a shape dim { size: 1 } . Setting to DenseTensor. INFO:absl:Feature species has a shape dim { size: 1 } . Setting to DenseTensor. INFO:absl:Model: "model" INFO:absl:__________________________________________________________________________________________________ INFO:absl:Layer (type) Output Shape Param # Connected to INFO:absl:================================================================================================== INFO:absl:culmen_length_mm (InputLayer) [(None, 1)] 0 INFO:absl:__________________________________________________________________________________________________ INFO:absl:culmen_depth_mm (InputLayer) [(None, 1)] 0 INFO:absl:__________________________________________________________________________________________________ INFO:absl:flipper_length_mm (InputLayer) [(None, 1)] 0 INFO:absl:__________________________________________________________________________________________________ INFO:absl:body_mass_g (InputLayer) [(None, 1)] 0 INFO:absl:__________________________________________________________________________________________________ INFO:absl:concatenate (Concatenate) (None, 4) 0 culmen_length_mm[0][0] INFO:absl: culmen_depth_mm[0][0] INFO:absl: flipper_length_mm[0][0] INFO:absl: body_mass_g[0][0] INFO:absl:__________________________________________________________________________________________________ INFO:absl:dense (Dense) (None, 8) 40 concatenate[0][0] INFO:absl:__________________________________________________________________________________________________ INFO:absl:dense_1 (Dense) (None, 8) 72 dense[0][0] INFO:absl:__________________________________________________________________________________________________ INFO:absl:dense_2 (Dense) (None, 3) 27 dense_1[0][0] INFO:absl:================================================================================================== INFO:absl:Total params: 139 INFO:absl:Trainable params: 139 INFO:absl:Non-trainable params: 0 INFO:absl:__________________________________________________________________________________________________ 100/100 [==============================] - 1s 4ms/step - loss: 0.2132 - sparse_categorical_accuracy: 0.9490 - val_loss: 0.0102 - val_sparse_categorical_accuracy: 1.0000 INFO:tensorflow:Assets written to: pipelines/penguin-transform/Trainer/model/6/Format-Serving/assets INFO:tensorflow:Assets written to: pipelines/penguin-transform/Trainer/model/6/Format-Serving/assets INFO:absl:Training complete. Model written to pipelines/penguin-transform/Trainer/model/6/Format-Serving. ModelRun written to pipelines/penguin-transform/Trainer/model_run/6 INFO:absl:Cleaning up stateless execution info. INFO:absl:Execution 6 succeeded. INFO:absl:Cleaning up stateful execution info. INFO:absl:Publishing output artifacts defaultdict(<class 'list'>, {'model': [Artifact(artifact: uri: "pipelines/penguin-transform/Trainer/model/6" custom_properties { key: "name" value { string_value: "penguin-transform:2021-12-05T10:21:51.187624:Trainer:model:0" } } custom_properties { key: "tfx_version" value { string_value: "1.4.0" } } , artifact_type: name: "Model" )], 'model_run': [Artifact(artifact: uri: "pipelines/penguin-transform/Trainer/model_run/6" custom_properties { key: "name" value { string_value: "penguin-transform:2021-12-05T10:21:51.187624:Trainer:model_run:0" } } custom_properties { key: "tfx_version" value { string_value: "1.4.0" } } , artifact_type: name: "ModelRun" )]}) for execution 6 INFO:absl:MetadataStore with DB connection initialized I1205 10:22:18.036643 24712] No property is defined for the Type INFO:absl:Component Trainer is finished. I1205 10:22:18.041664 24712] No property is defined for the Type INFO:absl:Component Pusher is running. "INFO:absl:Component İtici tamamlandı" ifadesini görmelisiniz. boru hattı başarıyla tamamlandıysa.
İtici bileşeni için eğitilmiş modeli iter SERVING_MODEL_DIR
olan serving_model/penguin-transform
önceki adımlarda değişkenleri değişmedi eğer dizin. Dosya tarayıcısının sonucunu Colab'de sol taraftaki panelde veya aşağıdaki komutu kullanarak görebilirsiniz:
# List files in created model directory.
serving_model/penguin-transform serving_model/penguin-transform/1638699738 serving_model/penguin-transform/1638699738/keras_metadata.pb serving_model/penguin-transform/1638699738/assets serving_model/penguin-transform/1638699738/variables serving_model/penguin-transform/1638699738/variables/ serving_model/penguin-transform/1638699738/variables/variables.index serving_model/penguin-transform/1638699738/saved_model.pb
Ayrıca kullanılarak oluşturulan modelin imzayı kontrol edebilirsiniz saved_model_cli
aracı .
saved_model_cli show --dir {SERVING_MODEL_DIR}/$(ls -1 {SERVING_MODEL_DIR} | sort -nr | head -1) --tag_set serve --signature_def serving_default
The given SavedModel SignatureDef contains the following input(s): inputs['examples'] tensor_info: dtype: DT_STRING shape: (-1) name: serving_default_examples:0 The given SavedModel SignatureDef contains the following output(s): outputs['output_0'] tensor_info: dtype: DT_FLOAT shape: (-1, 3) name: StatefulPartitionedCall_2:0 Method name is: tensorflow/serving/predict
Belirlediğimiz Çünkü serving_default
kendi ile serve_tf_examples_fn
fonksiyonu, tek bir dize alır imza gösterileri. Bu dize tf.Examples bir tefrika dizedir ile ayrıştırılır () daha önce açıklandığı gibi (daha tf.Examples hakkında bilgi fonksiyonu burada ).
Dışa aktarılan modeli yükleyebilir ve birkaç örnekle bazı çıkarımlar deneyebiliriz.
# Find a model with the latest timestamp.
model_dirs = (item for item in os.scandir(SERVING_MODEL_DIR) if item.is_dir())
model_path = max(model_dirs, key=lambda i: int(
loaded_model = tf.keras.models.load_model(model_path)
inference_fn = loaded_model.signatures['serving_default']
WARNING:tensorflow:Inconsistent references when loading the checkpoint into this object graph. Either the Trackable object references in the Python program have changed in an incompatible way, or the checkpoint was generated in an incompatible program. Two checkpoint references resolved to different objects (<keras.saving.saved_model.load.TensorFlowTransform>TransformFeaturesLayer object at 0x7f5b0836e3d0> and <keras.engine.input_layer.InputLayer object at 0x7f5b091aa550>). WARNING:tensorflow:Inconsistent references when loading the checkpoint into this object graph. Either the Trackable object references in the Python program have changed in an incompatible way, or the checkpoint was generated in an incompatible program. Two checkpoint references resolved to different objects (<keras.saving.saved_model.load.TensorFlowTransform>TransformFeaturesLayer object at 0x7f5b0836e3d0> and <keras.engine.input_layer.InputLayer object at 0x7f5b091aa550>).
# Prepare an example and run inference.
features = {
'culmen_length_mm': tf.train.Feature(float_list=tf.train.FloatList(value=[49.9])),
'culmen_depth_mm': tf.train.Feature(float_list=tf.train.FloatList(value=[16.1])),
'flipper_length_mm': tf.train.Feature(int64_list=tf.train.Int64List(value=[213])),
'body_mass_g': tf.train.Feature(int64_list=tf.train.Int64List(value=[5400])),
example_proto = tf.train.Example(features=tf.train.Features(feature=features))
examples = example_proto.SerializeToString()
result = inference_fn(examples=tf.constant([examples]))
[[-2.5357873 -3.0600576 3.4993587]]
'Gentoo' türüne karşılık gelen üçüncü elementin, üçü arasında en büyüğü olması bekleniyor.
Sonraki adımlar
Daha yaklaşık bileşen Transform öğrenmek istiyorsanız, bkz Bileşen kılavuzu Transform . Üzerinde daha fazla kaynak bulabilirsiniz
