परिचय
इस दस्तावेज़ में TensorFlow विस्तारित का उपयोग कर टेम्पलेट्स जो TFX अजगर पैकेज के साथ प्रदान की जाती हैं (TFX) पाइपलाइन बनाने के लिए निर्देश प्रदान करेगा। निर्देश के अधिकांश लिनक्स खोल आदेशों कर रहे हैं, और इसी Jupyter नोटबुक कोड कोशिकाएं होती हैं जो उपयोग करने वालों के आदेशों को लागू !
दिए गए है।
आप का उपयोग कर एक पाइपलाइन का निर्माण होगा टैक्सी डाटासेट Trips शिकागो शहर के द्वारा जारी किया। हम आपको इस पाइपलाइन को आधार रेखा के रूप में उपयोग करके अपने डेटासेट का उपयोग करके अपनी पाइपलाइन बनाने का प्रयास करने के लिए दृढ़ता से प्रोत्साहित करते हैं।
हम एक पाइप लाइन का उपयोग कर निर्माण करेगा अपाचे बीम वाद्यवृंदकार । आप Kubeflow वाद्यवृन्दकार Google मेघ पर उपयोग में रुचि रखते हैं, कृपया देखें पर बादल ऐ मंच पाइपलाइन ट्यूटोरियल TFX ।
आवश्यक शर्तें
- लिनक्स / मैकोज़
- पायथन>= 3.5.3
आप द्वारा आसानी से सभी आवश्यक शर्तें प्राप्त कर सकते हैं गूगल Colab पर इस नोटबुक चल रहा ।
चरण 1. अपना परिवेश सेट करें।
इस पूरे दस्तावेज़ में, हम दो बार कमांड प्रस्तुत करेंगे। एक बार कॉपी-एंड-पेस्ट-रेडी शेल कमांड के रूप में, एक बार ज्यूपिटर नोटबुक सेल के रूप में। यदि आप Colab का उपयोग कर रहे हैं, तो बस शेल स्क्रिप्ट ब्लॉक को छोड़ दें और नोटबुक सेल निष्पादित करें।
पाइपलाइन बनाने के लिए आपको विकास का माहौल तैयार करना चाहिए।
स्थापित करें tfx
अजगर पैकेज। हम के उपयोग की सलाह virtualenv
स्थानीय वातावरण में। आप अपने परिवेश को स्थापित करने के लिए निम्नलिखित शेल स्क्रिप्ट स्निपेट का उपयोग कर सकते हैं।
# Create a virtualenv for tfx.
virtualenv -p python3 venv
source venv/bin/activate
# Install python packages.
python -m pip install -q --user --upgrade tfx==0.23.0
अगर आप कोलाब का इस्तेमाल कर रहे हैं:
import sys
!{sys.executable} -m pip install -q --user --upgrade -q tfx==0.23.0
त्रुटि: कुछ-पैकेज 0.some_version.1 के लिए अन्य-पैकेज की आवश्यकता है!=2.0.,<3,>=1.15, लेकिन आपके पास अन्य-पैकेज 2.0.0 होगा जो असंगत है।
कृपया इस समय इन त्रुटियों पर ध्यान न दें।
# Set `PATH` to include user python binary directory.
HOME=%env HOME
PATH=%env PATH
%env PATH={PATH}:{HOME}/.local/bin
env: PATH=/tmpfs/src/tf_docs_env/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin:/opt/puppetlabs/bin:/opt/android-studio/current/bin:/usr/local/go/bin:/usr/local/go/packages/bin:/opt/kubernetes/client/bin/:/home/kbuilder/.local/bin:/home/kbuilder/.local/bin
आइए टीएफएक्स के संस्करण की जांच करें।
python -c "import tfx; print('TFX version: {}'.format(tfx.__version__))"
python3 -c "import tfx; print('TFX version: {}'.format(tfx.__version__))"
TFX version: 0.23.0
और, यह हो गया है। हम एक पाइपलाइन बनाने के लिए तैयार हैं।
चरण 2. पूर्वनिर्धारित टेम्पलेट को अपनी परियोजना निर्देशिका में कॉपी करें।
इस चरण में, हम एक पूर्वनिर्धारित टेम्पलेट से अतिरिक्त फ़ाइलों की प्रतिलिपि बनाकर एक कार्यशील पाइपलाइन प्रोजेक्ट निर्देशिका और फ़ाइलें बनाएंगे।
आप बदल कर अपनी पाइप लाइन एक अलग नाम दे सकते हैं PIPELINE_NAME
नीचे। यह प्रोजेक्ट डायरेक्टरी का नाम भी बन जाएगा जहां आपकी फाइलें रखी जाएंगी।
export PIPELINE_NAME="my_pipeline"
export PROJECT_DIR=~/tfx/${PIPELINE_NAME}
PIPELINE_NAME="my_pipeline"
import os
# Create a project directory under Colab content directory.
PROJECT_DIR=os.path.join(os.sep,"content",PIPELINE_NAME)
TFX शामिल taxi
TFX अजगर पैकेज के साथ टेम्पलेट। यदि आप वर्गीकरण और प्रतिगमन सहित एक बिंदु-वार भविष्यवाणी समस्या को हल करने की योजना बना रहे हैं, तो इस टेम्पलेट का उपयोग शुरुआती बिंदु के रूप में किया जा सकता है।
tfx template copy
CLI आदेश प्रतियां अपनी परियोजना निर्देशिका में टेम्पलेट फ़ाइलों पूर्वनिर्धारित।
tfx template copy \
--pipeline_name="${PIPELINE_NAME}" \
--destination_path="${PROJECT_DIR}" \
--model=taxi
!tfx template copy \
--pipeline_name={PIPELINE_NAME} \
--destination_path={PROJECT_DIR} \
--model=taxi
2020-09-07 09:09:40.131982: I tensorflow/stream_executor/platform/default/dso_loader.cc:48] Successfully opened dynamic library libcudart.so.10.1 CLI Copying taxi pipeline template Traceback (most recent call last): File "/home/kbuilder/.local/bin/tfx", line 8, in <module> sys.exit(cli_group()) File "/home/kbuilder/.local/lib/python3.6/site-packages/click/core.py", line 829, in __call__ return self.main(*args, **kwargs) File "/home/kbuilder/.local/lib/python3.6/site-packages/click/core.py", line 782, in main rv = self.invoke(ctx) File "/home/kbuilder/.local/lib/python3.6/site-packages/click/core.py", line 1259, in invoke return _process_result(sub_ctx.command.invoke(sub_ctx)) File "/home/kbuilder/.local/lib/python3.6/site-packages/click/core.py", line 1259, in invoke return _process_result(sub_ctx.command.invoke(sub_ctx)) File "/home/kbuilder/.local/lib/python3.6/site-packages/click/core.py", line 1066, in invoke return ctx.invoke(self.callback, **ctx.params) File "/home/kbuilder/.local/lib/python3.6/site-packages/click/core.py", line 610, in invoke return callback(*args, **kwargs) File "/home/kbuilder/.local/lib/python3.6/site-packages/click/decorators.py", line 73, in new_func return ctx.invoke(f, obj, *args, **kwargs) File "/home/kbuilder/.local/lib/python3.6/site-packages/click/core.py", line 610, in invoke return callback(*args, **kwargs) File "/home/kbuilder/.local/lib/python3.6/site-packages/tfx/tools/cli/commands/template.py", line 73, in copy template_handler.copy_template(ctx.flags_dict) File "/home/kbuilder/.local/lib/python3.6/site-packages/tfx/tools/cli/handler/template_handler.py", line 168, in copy_template replace_dict) File "/home/kbuilder/.local/lib/python3.6/site-packages/tfx/tools/cli/handler/template_handler.py", line 107, in _copy_and_replace_placeholder_dir tf.io.gfile.makedirs(dst) File "/tmpfs/src/tf_docs_env/lib/python3.6/site-packages/tensorflow/python/lib/io/file_io.py", line 480, in recursive_create_dir_v2 _pywrap_file_io.RecursivelyCreateDir(compat.as_bytes(path)) tensorflow.python.framework.errors_impl.PermissionDeniedError: /content; Permission denied
इस नोटबुक में कार्यशील निर्देशिका संदर्भ को प्रोजेक्ट निर्देशिका में बदलें।
cd ${PROJECT_DIR}
%cd {PROJECT_DIR}
[Errno 2] No such file or directory: '/content/my_pipeline' /tmpfs/src/temp/docs/tutorials/tfx
चरण 3. अपनी कॉपी की गई स्रोत फ़ाइलों को ब्राउज़ करें।
टीएफएक्स टेम्पलेट पाइपलाइन के उत्पादन का विश्लेषण करने के लिए पायथन स्रोत कोड, नमूना डेटा और ज्यूपिटर नोटबुक सहित पाइपलाइन बनाने के लिए बुनियादी मचान फाइलें प्रदान करता है। taxi
टेम्पलेट एक ही शिकागो टैक्सी डाटासेट और के रूप में एमएल मॉडल का उपयोग करता वायु प्रवाह ट्यूटोरियल ।
Google Colab में, आप बाईं ओर फ़ोल्डर आइकन पर क्लिक करके फ़ाइलें ब्राउज़ कर सकते हैं। फ़ाइलें परियोजना Directoy, जिसका नाम है के तहत कॉपी किया जाना चाहिए my_pipeline
इस मामले में। आप निर्देशिका की सामग्री देखने के लिए निर्देशिका नामों पर क्लिक कर सकते हैं, और फ़ाइल नामों को खोलने के लिए डबल-क्लिक कर सकते हैं।
यहां प्रत्येक पायथन फाइल का संक्षिप्त परिचय दिया गया है।
-
pipeline
- यह निर्देशिका पाइपलाइन की परिभाषा में शामिल है-
configs.py
- पाइपलाइन धावकों के लिए आम स्थिरांक को परिभाषित करता है -
pipeline.py
- परिभाषित करता है TFX घटकों और एक पाइप लाइन
-
-
models
- यह निर्देशिका एमएल मॉडल परिभाषाओं में शामिल है।-
features.py
,features_test.py
- परिभाषित करता है मॉडल के लिए सुविधाएँ -
preprocessing.py
,preprocessing_test.py
- परिभाषित करता है का उपयोग कर नौकरियों preprocessingtf::Transform
-
estimator
- यह निर्देशिका एक अनुमानक आधारित मॉडल होते हैं।-
constants.py
- मॉडल की परिभाषित स्थिरांक -
model.py
,model_test.py
- DNN मॉडल को परिभाषित करता है TF आकलनकर्ता का उपयोग कर
-
-
keras
- यह निर्देशिका एक Keras आधारित मॉडल होते हैं।-
constants.py
- मॉडल की परिभाषित स्थिरांक -
model.py
,model_test.py
- परिभाषित करता है Keras का उपयोग कर DNN मॉडल
-
-
-
beam_dag_runner.py
,kubeflow_dag_runner.py
- प्रत्येक आर्केस्ट्रा इंजन के लिए दूसरे स्थान को परिभाषित
तुम वहाँ के साथ कुछ फाइलें हैं कि ध्यान दे सकते हैं _test.py
उनके नाम में। ये पाइपलाइन के यूनिट परीक्षण हैं और यह अनुशंसा की जाती है कि आप अपनी खुद की पाइपलाइनों को लागू करते समय अधिक यूनिट परीक्षण जोड़ें। आप के साथ परीक्षण फ़ाइलों के मॉड्यूल का नाम आपूर्ति करके इकाई परीक्षण चला सकते हैं -m
झंडा। आप आम तौर पर हटा कर एक मॉड्यूल का नाम प्राप्त कर सकते हैं .py
विस्तार और जगह /
साथ .
. उदाहरण के लिए:
python -m models.features_test
{sys.executable} -m models.features_test
{sys.executable} -m models.keras.model_test
/tmpfs/src/tf_docs_env/bin/python: Error while finding module specification for 'models.features_test' (ModuleNotFoundError: No module named 'models') /tmpfs/src/tf_docs_env/bin/python: Error while finding module specification for 'models.keras.model_test' (ModuleNotFoundError: No module named 'models')
चरण 4. अपनी पहली TFX पाइपलाइन चलाएँ
आप का उपयोग कर एक पाइप लाइन बना सकते हैं pipeline create
आदेश।
tfx pipeline create --engine=beam --pipeline_path=beam_dag_runner.py
tfx pipeline create --engine=beam --pipeline_path=beam_dag_runner.py
2020-09-07 09:09:45.612839: I tensorflow/stream_executor/platform/default/dso_loader.cc:48] Successfully opened dynamic library libcudart.so.10.1 CLI Creating pipeline Invalid pipeline path: beam_dag_runner.py
फिर, आपके द्वारा बनाए गए पाइप लाइन का उपयोग कर चला सकते हैं run create
कमांड।
tfx run create --engine=beam --pipeline_name="${PIPELINE_NAME}"
tfx run create --engine=beam --pipeline_name={PIPELINE_NAME}
2020-09-07 09:09:50.725339: I tensorflow/stream_executor/platform/default/dso_loader.cc:48] Successfully opened dynamic library libcudart.so.10.1 CLI Creating a run for pipeline: my_pipeline Pipeline "my_pipeline" does not exist.
यदि सफल, आप देखेंगे Component CsvExampleGen is finished.
जब आप टेम्पलेट की प्रतिलिपि बनाते हैं, तो पाइपलाइन में केवल एक घटक, CsvExampleGen शामिल होता है।
चरण 5. डेटा सत्यापन के लिए घटक जोड़ें।
इस चरण में, आप सहित डेटा सत्यापन के लिए घटकों जोड़ देगा StatisticsGen
, SchemaGen
, और ExampleValidator
। आप डेटा सत्यापन में रुचि रखते हैं, कृपया देखें Tensorflow डेटा मान्यता के साथ आरंभ करें ।
हम में नकल पाइपलाइन परिभाषा को संशोधित करेगा pipeline/pipeline.py
। यदि आप अपने स्थानीय परिवेश पर काम कर रहे हैं, तो फ़ाइल को संपादित करने के लिए अपने पसंदीदा संपादक का उपयोग करें। अगर आप Google Colab पर काम कर रहे हैं,
खुला के लिए छोड़ दिया पर फ़ोल्डर आइकन पर क्लिक
Files
दृश्य।
क्लिक करें
my_pipeline
निर्देशिका को खोलने और क्लिक करने के लिएpipeline
खुला और डबल क्लिक करने के लिए निर्देशिकाpipeline.py
फ़ाइल खोलने के लिए।
ढूँढें और 3 लाइनों जो जोड़ने uncomment
StatisticsGen
,SchemaGen
, औरExampleValidator
पाइप लाइन के लिए। (सुझाव: युक्त टिप्पणियों को ढूंढनाTODO(step 5):
)।
आपका परिवर्तन कुछ ही सेकंड में अपने आप सहेज लिया जाएगा। सुनिश्चित करें कि
*
के सामने निशानpipeline.py
टैब शीर्षक में गायब हो गया। Colab में फ़ाइल संपादक के लिए कोई सहेजें बटन या शॉर्टकट नहीं है। फ़ाइल संपादक में अजगर फ़ाइलें भी में क्रम पर्यावरण को बचाया जा सकताplayground
मोड।
अब आपको मौजूदा पाइपलाइन को संशोधित पाइपलाइन परिभाषा के साथ अद्यतन करने की आवश्यकता है। का प्रयोग करें tfx pipeline update
अपने पाइप लाइन, के बाद अद्यतन करने के लिए आदेश tfx run create
अपने अद्यतन पाइप लाइन का एक नया निष्पादन रन बनाने के लिए आदेश।
# Update the pipeline
tfx pipeline update --engine=beam --pipeline_path=beam_dag_runner.py
# You can run the pipeline the same way.
tfx run create --engine beam --pipeline_name "${PIPELINE_NAME}"
# Update the pipeline
tfx pipeline update --engine=beam --pipeline_path=beam_dag_runner.py
# You can run the pipeline the same way.
tfx run create --engine beam --pipeline_name {PIPELINE_NAME}
2020-09-07 09:09:55.915484: I tensorflow/stream_executor/platform/default/dso_loader.cc:48] Successfully opened dynamic library libcudart.so.10.1 CLI Updating pipeline Invalid pipeline path: beam_dag_runner.py 2020-09-07 09:10:01.148250: I tensorflow/stream_executor/platform/default/dso_loader.cc:48] Successfully opened dynamic library libcudart.so.10.1 CLI Creating a run for pipeline: my_pipeline Pipeline "my_pipeline" does not exist.
आपको जोड़े गए घटकों से आउटपुट लॉग देखने में सक्षम होना चाहिए। हमारे पाइप लाइन में उत्पादन कलाकृतियों बनाता tfx_pipeline_output/my_pipeline
निर्देशिका।
चरण 6. प्रशिक्षण के लिए घटक जोड़ें।
इस चरण में, आप प्रशिक्षण और सहित मॉडल सत्यापन के लिए घटकों जोड़ देगा Transform
, Trainer
, ResolverNode
, Evaluator
, और Pusher
।
ओपन
pipeline/pipeline.py
। ढूँढें और टिप्पणी हटाएं 5 लाइनों जो जोड़नेTransform
,Trainer
,ResolverNode
,Evaluator
औरPusher
पाइप लाइन के लिए। (युक्ति: अपनीTODO(step 6):
)
जैसा कि आपने पहले किया था, अब आपको मौजूदा पाइपलाइन को संशोधित पाइपलाइन परिभाषा के साथ अद्यतन करने की आवश्यकता है। निर्देश चरण 5. अद्यतन पाइप लाइन का उपयोग कर के रूप में ही हैं tfx pipeline update
, और का उपयोग कर एक निष्पादन रन बनाने tfx run create
।
tfx pipeline update --engine=beam --pipeline_path=beam_dag_runner.py
tfx run create --engine beam --pipeline_name "${PIPELINE_NAME}"
tfx pipeline update --engine=beam --pipeline_path=beam_dag_runner.py
tfx run create --engine beam --pipeline_name {PIPELINE_NAME}
2020-09-07 09:10:06.281753: I tensorflow/stream_executor/platform/default/dso_loader.cc:48] Successfully opened dynamic library libcudart.so.10.1 CLI Updating pipeline Invalid pipeline path: beam_dag_runner.py 2020-09-07 09:10:11.333668: I tensorflow/stream_executor/platform/default/dso_loader.cc:48] Successfully opened dynamic library libcudart.so.10.1 CLI Creating a run for pipeline: my_pipeline Pipeline "my_pipeline" does not exist.
जब यह निष्पादन रन सफलतापूर्वक समाप्त हो जाता है, तो आपने अब बीम ऑर्केस्ट्रेटर का उपयोग करके अपनी पहली टीएफएक्स पाइपलाइन बनाई और चलाई है!
चरण 7. (वैकल्पिक) BigQueryExampleGen की कोशिश करो।
[बिगक्वेरी] एक सर्वर रहित, अत्यधिक स्केलेबल और लागत प्रभावी क्लाउड डेटा वेयरहाउस है। BigQuery को TFX में प्रशिक्षण उदाहरणों के स्रोत के रूप में उपयोग किया जा सकता है। इस चरण में, हम जोड़ देगा BigQueryExampleGen
पाइप लाइन के लिए।
आप एक की जरूरत है Google मेघ प्लेटफ़ॉर्म BigQuery उपयोग करने के लिए खाते। कृपया एक GCP प्रोजेक्ट तैयार करें।
अपनी परियोजना colab प्रमाणन पुस्तकालय या उपयोग करने के लिए लॉग इन gcloud
उपयोगिता।
# You need `gcloud` tool to login in local shell environment.
gcloud auth login
if 'google.colab' in sys.modules:
from google.colab import auth
auth.authenticate_user()
print('Authenticated')
TFX का उपयोग करके BigQuery संसाधनों तक पहुंचने के लिए आपको अपना GCP प्रोजेक्ट नाम निर्दिष्ट करना चाहिए। सेट GOOGLE_CLOUD_PROJECT
अपने प्रोजेक्ट के नाम करने के लिए वातावरण चर।
export GOOGLE_CLOUD_PROJECT=YOUR_PROJECT_NAME_HERE
# Set your project name below.
# WARNING! ENTER your project name before running this cell.
%env GOOGLE_CLOUD_PROJECT=YOUR_PROJECT_NAME_HERE
env: GOOGLE_CLOUD_PROJECT=YOUR_PROJECT_NAME_HERE
ओपन
pipeline/pipeline.py
। बाहर टिप्पणीCsvExampleGen
और टिप्पणी हटाएं रेखा है जो का एक उदाहरण बनानेBigQueryExampleGen
। तुम भी टिप्पणी हटाएं करने की जरूरत हैquery
का तर्कcreate_pipeline
कार्य करते हैं।
हम जो GCP परियोजना BigQuery के लिए फिर से उपयोग करने के लिए निर्दिष्ट करने की आवश्यकता है, और इस सेटिंग के द्वारा किया जाता है --project
में beam_pipeline_args
जब एक पाइप लाइन का निर्माण।
ओपन
pipeline/configs.py
। टिप्पणी हटाएं की परिभाषाBIG_QUERY__WITH_DIRECT_RUNNER_BEAM_PIPELINE_ARGS
औरBIG_QUERY_QUERY
। आपको इस फ़ाइल में प्रोजेक्ट आईडी और क्षेत्र मान को अपने GCP प्रोजेक्ट के लिए सही मानों से बदलना चाहिए।
ओपन
beam_dag_runner.py
। टिप्पणी हटाएं दो तर्क,query
औरbeam_pipeline_args
, create_pipeline () विधि के लिए।
अब पाइपलाइन एक उदाहरण स्रोत के रूप में BigQuery का उपयोग करने के लिए तैयार है। पाइपलाइन को अपडेट करें और एक रन बनाएं जैसा कि हमने चरण 5 और 6 में किया था।
tfx pipeline update --engine=beam --pipeline_path=beam_dag_runner.py
tfx run create --engine beam --pipeline_name {PIPELINE_NAME}
2020-09-07 09:10:16.406635: I tensorflow/stream_executor/platform/default/dso_loader.cc:48] Successfully opened dynamic library libcudart.so.10.1 CLI Updating pipeline Invalid pipeline path: beam_dag_runner.py 2020-09-07 09:10:21.439101: I tensorflow/stream_executor/platform/default/dso_loader.cc:48] Successfully opened dynamic library libcudart.so.10.1 CLI Creating a run for pipeline: my_pipeline Pipeline "my_pipeline" does not exist.
आगे क्या है: अपना डेटा पाइपलाइन में डालें।
हमने शिकागो टैक्सी डेटासेट का उपयोग करके एक मॉडल के लिए एक पाइपलाइन बनाई। अब आपके डेटा को पाइपलाइन में डालने का समय आ गया है।
आपका डेटा कहीं भी संग्रहीत किया जा सकता है जहां आपकी पाइपलाइन पहुंच सकती है, जिसमें GCS, या BigQuery शामिल है। आपको अपने डेटा तक पहुंचने के लिए पाइपलाइन की परिभाषा को संशोधित करना होगा।
- अपने डेटा फ़ाइलों में संग्रहीत किया जाता है, को संशोधित
DATA_PATH
मेंkubeflow_dag_runner.py
याbeam_dag_runner.py
और आपकी फ़ाइलों के स्थान पर सेट करें। अपने डेटा BigQuery में संग्रहीत है, तो संशोधितBIG_QUERY_QUERY
मेंpipeline/configs.py
सही ढंग से अपने डेटा के लिए क्वेरी के लिए। - में सुविधाओं को जोड़ने के
models/features.py
। - संशोधित
models/preprocessing.py
को प्रशिक्षण के लिए इनपुट डेटा को बदलने । - संशोधित
models/keras/model.py
औरmodels/keras/constants.py
करने का वर्णन अपने एमएल मॉडल ।- आप एक अनुमानक आधारित मॉडल का भी उपयोग कर सकते हैं। बदलें
RUN_FN
लगातार करने के लिएmodels.estimator.model.run_fn
मेंpipeline/configs.py
।
- आप एक अनुमानक आधारित मॉडल का भी उपयोग कर सकते हैं। बदलें
कृपया देखें ट्रेनर घटक गाइड अधिक परिचय के लिए।