Orchestrer les pipelines TFX

Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Orchestrateur personnalisé

TFX est conçu pour être portable dans plusieurs environnements et frameworks d'orchestration. Les développeurs peuvent créer des orchestrateurs personnalisés ou ajouter des orchestrateurs supplémentaires en plus des orchestrateurs par défaut qui sont pris en charge par TFX, à savoir Airflow , faisceau et Kubeflow .

Tous les orchestrateurs doivent hériter de TfxRunner . Les orchestrateurs TFX prennent l'objet de pipeline logique, qui contient les arguments de pipeline, les composants et le DAG, et sont responsables de la planification des composants du pipeline TFX en fonction des dépendances définies par le DAG.

Par exemple, nous allons voir comment créer un orchestrateur personnalisé avec ComponentLauncher . ComponentLauncher gère déjà le pilote, l'exécuteur et l'éditeur d'un seul composant. Le nouvel orchestrateur a juste besoin de planifier les ComponentLaunchers en fonction du DAG. Un orchestrateur simple est fourni le LocalDagRunner , qui gère les composants un par un dans l' ordre topologique de DAG.

Cet orchestrateur peut être utilisé dans le Python DSL :

def _create_pipeline(...) -> dsl.Pipeline:
  ...
  return dsl.Pipeline(...)

if __name__ == '__main__':
  orchestration.LocalDagRunner().run(_create_pipeline(...))

Pour exécuter au-dessus du fichier Python DSL (en supposant qu'il s'appelle dsl.py), procédez simplement comme suit :

python dsl.py