La Guida per l'utente di TFX

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

introduzione

TFX è una piattaforma di machine learning (ML) su scala di produzione di Google basata su TensorFlow. Fornisce un framework di configurazione e librerie condivise per integrare i componenti comuni necessari per definire, avviare e monitorare il tuo sistema di machine learning.

TFX 1.0

Siamo felici di annunciare la disponibilità del TFX 1.0.0 . Questa è la versione iniziale post-beta di TFX, che fornisce API e artefatti pubblici stabili. Potete essere certi che le vostre future pipeline TFX continueranno a funzionare dopo un aggiornamento nell'ambito della compatibilità definito in questa RFC .

Installazione

PitonePyPI

pip install tfx

Pacchetti notturni

TFX ospita anche pacchetti notturni su https://pypi-nightly.tensorflow.org su Google Cloud. Per installare l'ultimo pacchetto notturno, utilizzare il comando seguente:

pip install --extra-index-url https://pypi-nightly.tensorflow.org/simple --pre tfx

Questo installerà i pacchetti notturni per le principali dipendenze di TFX come TensorFlow Model Analysis (TFMA), TensorFlow Data Validation (TFDV), TensorFlow Transform (TFT), TFX Basic Shared Libraries (TFX-BSL), ML Metadata (MLMD).

A proposito di TFX

TFX è una piattaforma per la creazione e la gestione di flussi di lavoro ML in un ambiente di produzione. TFX fornisce quanto segue:

  • Un toolkit per la creazione di pipeline ML. Le pipeline TFX ti consentono di orchestrare il tuo flusso di lavoro ML su diverse piattaforme, ad esempio: Apache Airflow, Apache Beam e Kubeflow Pipelines.

    Ulteriori informazioni sulle pipeline TFX .

  • Un set di componenti standard che puoi usare come parte di una pipeline o come parte dello script di formazione ML. I componenti standard di TFX forniscono funzionalità comprovate per aiutarti a iniziare a creare facilmente un processo ML.

    Ulteriori informazioni sui componenti standard TFX .

  • Librerie che forniscono la funzionalità di base per molti dei componenti standard. Puoi utilizzare le librerie TFX per aggiungere questa funzionalità ai tuoi componenti personalizzati o usarli separatamente.

    Ulteriori informazioni sulle librerie TFX .

TFX è un toolkit di apprendimento automatico su scala di produzione di Google basato su TensorFlow. Fornisce un framework di configurazione e librerie condivise per integrare i componenti comuni necessari per definire, avviare e monitorare il tuo sistema di machine learning.

Componenti standard TFX

Una pipeline TFX è una sequenza di componenti che implementano una pipeline ML progettata specificamente per attività di apprendimento automatico scalabili e ad alte prestazioni. Ciò include la modellazione, l'addestramento, l'elaborazione dell'inferenza e la gestione delle distribuzioni su target online, mobili nativi e JavaScript.

Una pipeline TFX include in genere i seguenti componenti:

  • ExampleGen è il componente di input iniziale di una pipeline che acquisisce e, facoltativamente, divide il set di dati di input.

  • StatisticsGen calcola le statistiche per il set di dati.

  • SchemaGen esamina le statistiche e crea uno schema di dati.

  • ExampleValidator cerca anomalie e valori mancanti nel set di dati.

  • Trasforma esegue l'ingegneria delle funzionalità sul set di dati.

  • Il trainer allena il modello.

  • Tuner sintonizza gli iperparametri del modello.

  • Evaluator esegue un'analisi approfondita dei risultati della formazione e ti aiuta a convalidare i modelli esportati, assicurando che siano "abbastanza buoni" per essere spinti in produzione.

  • InfraValidator verifica che il modello sia effettivamente utilizzabile dall'infrastruttura e previene il push di modelli non validi.

  • Pusher distribuisce il modello su un'infrastruttura di servizio.

  • BulkInferrer esegue l'elaborazione batch su un modello con richieste di inferenza senza etichetta.

Questo diagramma illustra il flusso di dati tra questi componenti:

Flusso dei componenti

Librerie TFX

TFX include sia le librerie che i componenti della pipeline. Questo diagramma illustra le relazioni tra le librerie TFX e i componenti della pipeline:

Biblioteche e componenti

TFX fornisce diversi pacchetti Python che sono le librerie utilizzate per creare componenti della pipeline. Utilizzerai queste librerie per creare i componenti delle tue pipeline in modo che il tuo codice possa concentrarsi sugli aspetti unici della tua pipeline.

Le librerie TFX includono:

  • TensorFlow Data Validation (TFDV) è una libreria per l'analisi e la convalida dei dati di machine learning. È progettato per essere altamente scalabile e per funzionare bene con TensorFlow e TFX. TFDV include:

    • Calcolo scalabile di statistiche riassuntive dei dati di allenamento e test.
    • Integrazione con un visualizzatore per le distribuzioni dei dati e le statistiche, nonché il confronto sfaccettato di coppie di set di dati (Facets).
    • Generazione automatizzata di schemi di dati per descrivere le aspettative sui dati come valori, intervalli e vocabolari richiesti.
    • Un visualizzatore di schemi per aiutarti a controllare lo schema.
    • Rilevamento delle anomalie per identificare anomalie, come funzioni mancanti, valori fuori intervallo o tipi di funzioni errati, solo per citarne alcuni.
    • Un visualizzatore di anomalie in modo da poter vedere quali caratteristiche hanno anomalie e saperne di più per correggerle.
  • TensorFlow Transform (TFT) è una libreria per la preelaborazione dei dati con TensorFlow. TensorFlow Transform è utile per i dati che richiedono un passaggio completo, come ad esempio:

    • Normalizza un valore di input tramite media e deviazione standard.
    • Converti le stringhe in numeri interi generando un vocabolario su tutti i valori di input.
    • Converti i float in numeri interi assegnandoli a bucket in base alla distribuzione dei dati osservata.
  • TensorFlow viene utilizzato per l'addestramento di modelli con TFX. Acquisisce i dati di addestramento e il codice di modellazione e crea un risultato SavedModel. Integra inoltre una pipeline di progettazione delle funzionalità creata da TensorFlow Transform per la preelaborazione dei dati di input.

    KerasTuner viene utilizzato per l'ottimizzazione degli iperparametri per il modello.

  • TensorFlow Model Analysis (TFMA) è una libreria per la valutazione dei modelli TensorFlow. Viene utilizzato insieme a TensorFlow per creare un EvalSavedModel, che diventa la base per la sua analisi. Consente agli utenti di valutare i propri modelli su grandi quantità di dati in modo distribuito, utilizzando le stesse metriche definite nel proprio trainer. Queste metriche possono essere calcolate su diverse sezioni di dati e visualizzate nei notebook Jupyter.

  • TensorFlow Metadata (TFMD) fornisce rappresentazioni standard per i metadati utili durante il training di modelli di machine learning con TensorFlow. I metadati possono essere prodotti manualmente o automaticamente durante l'analisi dei dati di input e possono essere utilizzati per la convalida, l'esplorazione e la trasformazione dei dati. I formati di serializzazione dei metadati includono:

    • Uno schema che descrive dati tabulari (ad esempio, tf.Examples).
    • Una raccolta di statistiche riassuntive su tali set di dati.
  • ML Metadata (MLMD) è una libreria per la registrazione e il recupero di metadati associati ai flussi di lavoro di sviluppatori ML e data scientist. Molto spesso i metadati utilizzano rappresentazioni TFMD. MLMD gestisce la persistenza utilizzando SQL-Lite , MySQL e altri archivi dati simili.

Tecnologie di supporto

Necessario

  • Apache Beam è un modello unificato open source per la definizione di pipeline di elaborazione parallela dei dati sia in batch che in streaming. TFX utilizza Apache Beam per implementare pipeline parallele ai dati. La pipeline viene quindi eseguita da uno dei back-end di elaborazione distribuita supportati da Beam, che include Apache Flink, Apache Spark, Google Cloud Dataflow e altri.

Opzionale

Orchestrator come Apache Airflow e Kubeflow semplificano la configurazione, il funzionamento, il monitoraggio e la manutenzione di una pipeline ML.

  • Apache Airflow è una piattaforma per creare, programmare e monitorare i flussi di lavoro in modo programmatico. TFX utilizza Airflow per creare flussi di lavoro come grafici aciclici diretti (DAG) di attività. Lo scheduler Airflow esegue attività su una serie di lavoratori seguendo le dipendenze specificate. Le ricche utilità della riga di comando rendono l'esecuzione di complessi interventi chirurgici sui DAG un gioco da ragazzi. La ricca interfaccia utente semplifica la visualizzazione delle pipeline in esecuzione in produzione, il monitoraggio dello stato di avanzamento e la risoluzione dei problemi quando necessario. Quando i flussi di lavoro sono definiti come codice, diventano più gestibili, controllabili, verificabili e collaborativi.

  • Kubeflow è dedicato a rendere semplici, portatili e scalabili le implementazioni di flussi di lavoro di machine learning (ML) su Kubernetes. L'obiettivo di Kubeflow non è ricreare altri servizi, ma fornire un modo semplice per distribuire i migliori sistemi open source per ML a diverse infrastrutture. Le pipeline Kubeflow consentono la composizione e l'esecuzione di flussi di lavoro riproducibili su Kubeflow, integrati con la sperimentazione e le esperienze basate su notebook. I servizi Kubeflow Pipelines su Kubernetes includono l'archivio metadati ospitato, il motore di orchestrazione basato su container, il server notebook e l'interfaccia utente per aiutare gli utenti a sviluppare, eseguire e gestire complesse pipeline di machine learning su larga scala. Kubeflow Pipelines SDK consente la creazione e la condivisione di componenti e la composizione delle pipeline a livello di codice.

Portabilità e interoperabilità

TFX è progettato per essere trasportabile in più ambienti e framework di orchestrazione, inclusi Apache Airflow , Apache Beam e Kubeflow . È anche portatile per diverse piattaforme di elaborazione, comprese quelle on-premise, e piattaforme cloud come Google Cloud Platform (GCP) . In particolare, TFX interagisce con i servizi GCP gestiti da server, come Cloud AI Platform for Training and Prediction e Cloud Dataflow per l'elaborazione distribuita dei dati per molti altri aspetti del ciclo di vita del machine learning.

Modello e modello salvato

Modello

Un modello è l'output del processo di formazione. È il record serializzato dei pesi che sono stati appresi durante il processo di addestramento. Questi pesi possono essere successivamente utilizzati per calcolare le previsioni per nuovi esempi di input. Per TFX e TensorFlow, 'modello' si riferisce ai checkpoint contenenti i pesi appresi fino a quel momento.

Si noti che 'modello' potrebbe anche riferirsi alla definizione del grafo di calcolo TensorFlow (cioè un file Python) che esprime come verrà calcolata una previsione. I due sensi possono essere usati in modo intercambiabile in base al contesto.

Modello salvato

  • Cos'è un modello salvato : una serializzazione universale, indipendente dal linguaggio, ermetica e recuperabile di un modello TensorFlow.
  • Perché è importante : consente ai sistemi di livello superiore di produrre, trasformare e utilizzare modelli TensorFlow utilizzando un'unica astrazione.

SavedModel è il formato di serializzazione consigliato per servire un modello TensorFlow in produzione o per esportare un modello addestrato per un'applicazione mobile o JavaScript nativa. Ad esempio, per trasformare un modello in un servizio REST per fare previsioni, puoi serializzare il modello come SavedModel e servirlo utilizzando TensorFlow Serving. Per ulteriori informazioni, vedere Elaborazione di un modello TensorFlow .

Schema

Alcuni componenti TFX utilizzano una descrizione dei dati di input denominata schema . Lo schema è un'istanza di schema.proto . Gli schemi sono un tipo di buffer di protocollo , più generalmente noto come "protobuf". Lo schema può specificare i tipi di dati per i valori delle funzionalità, se una funzionalità deve essere presente in tutti gli esempi, gli intervalli di valori consentiti e altre proprietà. Uno dei vantaggi dell'utilizzo di TensorFlow Data Validation (TFDV) è che genererà automaticamente uno schema deducendo tipi, categorie e intervalli dai dati di addestramento.

Ecco un estratto da uno schema protobuf:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

I seguenti componenti utilizzano lo schema:

  • Convalida dei dati di TensorFlow
  • Trasformata TensorFlow

In una tipica pipeline TFX, TensorFlow Data Validation genera uno schema, che viene utilizzato dagli altri componenti.

Sviluppare con TFX

TFX fornisce una potente piattaforma per ogni fase di un progetto di machine learning, dalla ricerca, sperimentazione e sviluppo sulla tua macchina locale, fino all'implementazione. Per evitare la duplicazione del codice ed eliminare il potenziale di distorsione dell'addestramento/servizio , si consiglia vivamente di implementare la pipeline TFX sia per l'addestramento del modello che per la distribuzione di modelli addestrati e utilizzare i componenti Transform che sfruttano la libreria TensorFlow Transform sia per l'addestramento che per l'inferenza. In questo modo utilizzerai lo stesso codice di preelaborazione e analisi in modo coerente ed eviterai differenze tra i dati utilizzati per l'addestramento e i dati forniti ai tuoi modelli addestrati in produzione, oltre a trarre vantaggio dalla scrittura di quel codice una volta.

Esplorazione, visualizzazione e pulizia dei dati

Esplorazione, visualizzazione e pulizia dei dati

Le pipeline TFX in genere iniziano con un componente ExampleGen , che accetta i dati di input e li formatta come tf.Examples. Spesso questo viene fatto dopo che i dati sono stati suddivisi in set di dati di addestramento e valutazione in modo che ci siano effettivamente due copie dei componenti di ExampleGen, una per addestramento e valutazione. Questo è in genere seguito da un componente StatisticsGen e un componente SchemaGen , che esaminerà i tuoi dati e dedurrà uno schema di dati e statistiche. Lo schema e le statistiche verranno utilizzati da un componente ExampleValidator , che cercherà anomalie, valori mancanti e tipi di dati errati nei tuoi dati. Tutti questi componenti sfruttano le capacità della libreria TensorFlow Data Validation .

TensorFlow Data Validation (TFDV) è uno strumento prezioso quando si esegue l'esplorazione, la visualizzazione e la pulizia iniziali del set di dati. TFDV esamina i tuoi dati e deduce i tipi di dati, le categorie e gli intervalli, quindi aiuta automaticamente a identificare le anomalie e i valori mancanti. Fornisce inoltre strumenti di visualizzazione che possono aiutarti a esaminare e comprendere il tuo set di dati. Al termine della pipeline, puoi leggere i metadati da MLMD e utilizzare gli strumenti di visualizzazione di TFDV in un notebook Jupyter per analizzare i dati.

Dopo l'addestramento iniziale e la distribuzione del modello, TFDV può essere utilizzato per monitorare nuovi dati dalle richieste di inferenza ai modelli distribuiti e cercare anomalie e/o deriva. Ciò è particolarmente utile per i dati delle serie temporali che cambiano nel tempo a causa della tendenza o della stagionalità e può aiutare a informare in caso di problemi con i dati o quando i modelli devono essere riqualificati su nuovi dati.

Visualizzazione dati

Dopo aver completato la prima esecuzione dei dati attraverso la sezione della pipeline che utilizza TFDV (in genere StatisticsGen, SchemaGen ed ExampleValidator) è possibile visualizzare i risultati in un notebook in stile Jupyter. Per esecuzioni aggiuntive è possibile confrontare questi risultati mentre si apportano modifiche, finché i dati non sono ottimali per il modello e l'applicazione.

Prima eseguirai una query sui metadati ML (MLMD) per individuare i risultati di queste esecuzioni di questi componenti, quindi utilizzerai l'API di supporto della visualizzazione in TFDV per creare le visualizzazioni nel tuo notebook. Ciò include tfdv.load_statistics() e tfdv.visualize_statistics() Usando questa visualizzazione puoi comprendere meglio le caratteristiche del tuo set di dati e, se necessario, modificarlo come richiesto.

Modelli di sviluppo e formazione

Ingegneria delle funzionalità

Una tipica pipeline TFX includerà un componente Transform , che eseguirà l'ingegneria delle funzionalità sfruttando le capacità della libreria TensorFlow Transform (TFT) . Un componente Transform utilizza lo schema creato da un componente SchemaGen e applica le trasformazioni dei dati per creare, combinare e trasformare le funzionalità che verranno utilizzate per addestrare il modello. La pulizia dei valori mancanti e la conversione dei tipi devono essere eseguiti anche nel componente Trasforma se esiste la possibilità che questi siano presenti anche nei dati inviati per le richieste di inferenza. Ci sono alcune considerazioni importanti quando si progetta il codice TensorFlow per l'addestramento in TFX.

Modellazione e formazione

Il risultato di un componente Transform è un SavedModel che verrà importato e utilizzato nel codice di modellazione in TensorFlow, durante un componente Trainer . Questo SavedModel include tutte le trasformazioni di ingegneria dei dati create nel componente Transform, in modo che le trasformazioni identiche vengano eseguite utilizzando lo stesso identico codice sia durante l'addestramento che durante l'inferenza. Utilizzando il codice di modellazione, incluso il SavedModel dal componente Transform, puoi utilizzare i tuoi dati di addestramento e valutazione e addestrare il tuo modello.

Quando si lavora con modelli basati su Estimator, l'ultima sezione del codice di modellazione dovrebbe salvare il modello sia come SavedModel che come EvalSavedModel. Il salvataggio come EvalSavedModel assicura che le metriche utilizzate durante il training siano disponibili anche durante la valutazione (notare che questo non è richiesto per i modelli basati su keras). Il salvataggio di un EvalSavedModel richiede l'importazione della libreria TensorFlow Model Analysis (TFMA) nel componente Trainer.

import tensorflow_model_analysis as tfma
...

tfma.export.export_eval_savedmodel(
        estimator=estimator,
        export_dir_base=eval_model_dir,
        eval_input_receiver_fn=receiver_fn)

È possibile aggiungere un componente Tuner opzionale prima di Trainer per ottimizzare gli iperparametri (ad esempio, il numero di livelli) per il modello. Con il modello dato e lo spazio di ricerca degli iperparametri, l'algoritmo di ottimizzazione troverà i migliori iperparametri in base all'obiettivo.

Analisi e comprensione delle prestazioni del modello

Analisi del modello

Dopo lo sviluppo iniziale del modello e la formazione, è importante analizzare e comprendere realmente le prestazioni del modello. Una tipica pipeline TFX includerà un componente Evaluator , che sfrutta le capacità della libreria TensorFlow Model Analysis (TFMA) , che fornisce un set di strumenti potenti per questa fase di sviluppo. Un componente Evaluator utilizza il modello esportato in precedenza e consente di specificare un elenco di tfma.SlicingSpec che è possibile utilizzare durante la visualizzazione e l'analisi delle prestazioni del modello. Ogni SlicingSpec definisce una porzione dei dati di addestramento che si desidera esaminare, ad esempio categorie particolari per funzionalità categoriali o intervalli particolari per funzionalità numeriche.

Ad esempio, questo sarebbe importante per cercare di comprendere le prestazioni del tuo modello per diversi segmenti dei tuoi clienti, che potrebbero essere segmentati per acquisti annuali, dati geografici, fascia di età o sesso. Ciò può essere particolarmente importante per i set di dati con code lunghe, in cui le prestazioni di un gruppo dominante possono mascherare prestazioni inaccettabili per gruppi importanti ma più piccoli. Ad esempio, il tuo modello potrebbe funzionare bene per i dipendenti medi ma fallire miseramente per il personale dirigente e potrebbe essere importante per te saperlo.

Analisi e visualizzazione del modello

Dopo aver completato la prima esecuzione dei dati tramite il training del modello e l'esecuzione del componente Evaluator (che sfrutta TFMA ) sui risultati del training, è possibile visualizzare i risultati in un notebook in stile Jupyter. Per esecuzioni aggiuntive è possibile confrontare questi risultati mentre si apportano modifiche, finché i risultati non sono ottimali per il modello e l'applicazione.

Prima eseguirai una query sui metadati ML (MLMD) per individuare i risultati di queste esecuzioni di questi componenti, quindi utilizzerai l'API di supporto della visualizzazione in TFMA per creare le visualizzazioni nel tuo notebook. Ciò include tfma.load_eval_results e tfma.view.render_slicing_metrics Usando questa visualizzazione puoi comprendere meglio le caratteristiche del tuo modello e, se necessario, modificarlo come richiesto.

Convalida delle prestazioni del modello

Come parte dell'analisi delle prestazioni di un modello, potresti voler convalidare le prestazioni rispetto a una linea di base (come il modello attualmente in servizio). La convalida del modello viene eseguita passando sia un modello candidato che un modello di base al componente Valutatore . Il valutatore calcola le metriche (ad es. AUC, perdita) sia per il candidato che per la linea di base insieme a un insieme corrispondente di metriche differenziali. Le soglie possono quindi essere applicate e utilizzate per portare i tuoi modelli alla produzione.

Convalida che un modello può essere servito

Convalida infra

Prima di distribuire il modello addestrato, potresti voler convalidare se il modello è realmente utilizzabile nell'infrastruttura di servizio. Ciò è particolarmente importante negli ambienti di produzione per garantire che il modello appena pubblicato non impedisca al sistema di servire le previsioni. Il componente InfraValidator eseguirà una distribuzione canary del tuo modello in un ambiente sandbox e, facoltativamente, invierà richieste reali per verificare che il tuo modello funzioni correttamente.

Obiettivi di distribuzione

Dopo aver sviluppato e addestrato un modello di cui sei soddisfatto, ora è il momento di distribuirlo a una o più destinazioni di distribuzione dove riceverà richieste di inferenza. TFX supporta la distribuzione in tre classi di destinazioni di distribuzione. I modelli addestrati che sono stati esportati come SavedModels possono essere distribuiti a una oa tutte queste destinazioni di distribuzione.

Flusso dei componenti

Inferenza: servizio TensorFlow

TensorFlow Serving (TFS) è un sistema di pubblicazione flessibile e ad alte prestazioni per modelli di machine learning, progettato per ambienti di produzione. Utilizza un SavedModel e accetterà richieste di inferenza su interfacce REST o gRPC. Funziona come un insieme di processi su uno o più server di rete, utilizzando una delle numerose architetture avanzate per gestire la sincronizzazione e il calcolo distribuito. Consulta la documentazione di TFS per ulteriori informazioni sullo sviluppo e la distribuzione di soluzioni TFS.

In una pipeline tipica, un SavedModel che è stato addestrato in un componente Trainer verrebbe prima infravalidato in un componente InfraValidator . InfraValidator avvia un server modello TFS canary per servire effettivamente SavedModel. Se la convalida è stata superata, un componente Pusher distribuirà finalmente il SavedModel alla tua infrastruttura TFS. Ciò include la gestione di più versioni e aggiornamenti del modello.

Inferenza in applicazioni mobili e IoT native: TensorFlow Lite

TensorFlow Lite è una suite di strumenti dedicata ad aiutare gli sviluppatori a utilizzare i loro modelli TensorFlow addestrati in applicazioni mobili e IoT native. Utilizza gli stessi SavedModels di TensorFlow Serving e applica ottimizzazioni come la quantizzazione e la potatura per ottimizzare le dimensioni e le prestazioni dei modelli risultanti per le sfide dell'esecuzione su dispositivi mobili e IoT. Consulta la documentazione di TensorFlow Lite per ulteriori informazioni sull'utilizzo di TensorFlow Lite.

Inferenza in JavaScript: TensorFlow JS

TensorFlow JS è una libreria JavaScript per il training e la distribuzione di modelli ML nel browser e su Node.js. Utilizza gli stessi modelli salvati di TensorFlow Serving e TensorFlow Lite e li converte nel formato Web TensorFlow.js. Consulta la documentazione di TensorFlow JS per maggiori dettagli sull'utilizzo di TensorFlow JS.

Creazione di una pipeline TFX con flusso d'aria

Controllare l' officina del flusso d'aria per i dettagli

Creazione di una pipeline TFX con Kubeflow

Impostare

Kubeflow richiede un cluster Kubernetes per eseguire le pipeline su larga scala. Consulta le linee guida per la distribuzione di Kubeflow che guidano attraverso le opzioni per la distribuzione del cluster Kubeflow.

Configura ed esegui la pipeline TFX

Segui il tutorial TFX on Cloud AI Platform Pipeline per eseguire la pipeline di esempio TFX su Kubeflow. I componenti TFX sono stati containerizzati per comporre la pipeline Kubeflow e l'esempio illustra la possibilità di configurare la pipeline per leggere set di dati pubblici di grandi dimensioni ed eseguire fasi di formazione ed elaborazione dati su larga scala nel cloud.

Interfaccia della riga di comando per le azioni della pipeline

TFX fornisce una CLI unificata che aiuta a eseguire la gamma completa di azioni della pipeline come creare, aggiornare, eseguire, elencare ed eliminare pipeline su vari orchestratori tra cui Apache Airflow, Apache Beam e Kubeflow. Per i dettagli, seguire queste istruzioni .