Men-debug Alur Kerja Cloud TensorFlow

Berikut beberapa tip untuk memperbaiki masalah yang tidak terduga.

Operasi tidak diizinkan dalam lingkup strategi distribusi

Kesalahan seperti : Membuat generator dalam lingkup strategi tidak diperbolehkan, karena ada ambiguitas tentang cara mereplikasi generator (misalnya haruskah disalin sehingga setiap replika mendapat nomor acak yang sama, atau 'dibagi' sehingga setiap replika mendapat nomor acak berbeda angka).

Solusi : Meneruskan distribution_strategy='auto' untuk run API akan membungkus semua skrip Anda dalam strategi distribusi TF berdasarkan konfigurasi cluster yang disediakan. Anda akan melihat kesalahan di atas atau yang serupa, jika karena alasan tertentu suatu operasi tidak diperbolehkan dalam lingkup strategi distribusi. Untuk memperbaiki kesalahan ini, teruskan None ke param distribution_strategy dan buat instance strategi sebagai bagian dari kode pelatihan Anda seperti yang ditunjukkan dalam contoh ini .

Batas waktu pembuatan gambar Docker

Kesalahan seperti : permintaan.pengecualian.ConnectionError: ('Koneksi dibatalkan.', timeout('Waktu operasi penulisan habis'))

Solusi : Direktori yang digunakan sebagai titik masuk kemungkinan memiliki terlalu banyak data agar gambar dapat berhasil dibuat, dan mungkin ada data asing yang disertakan dalam pembuatan. Format ulang struktur direktori Anda sehingga folder yang berisi titik masuk hanya menyertakan file yang diperlukan untuk proyek saat ini.

Versi tidak didukung untuk pelatihan TPU

Kesalahan seperti : Terjadi kesalahan saat mengirimkan pekerjaan. Bidang: tpu_tf_version Kesalahan: Versi waktu proses yang ditentukan '2.3' tidak didukung untuk pelatihan TPU. Harap tentukan versi runtime yang berbeda.

Solusi : Silakan gunakan TF versi 2.1. Lihat Strategi TPU di bagian Konfigurasi strategi klaster dan distribusi .

Pembangunan malam TF.

Peringatan seperti : Gambar induk Docker '2.4.0.dev20200720' tidak ada. Menggunakan build TF nightly terbaru.

Solusi : Jika Anda tidak menyediakan parameter docker_config.parent_image , maka secara default kami menggunakan gambar buruh pelabuhan TF yang sudah dibuat sebelumnya sebagai gambar induk. Jika Anda tidak menginstal TF di lingkungan tempat run dipanggil, maka image buruh pelabuhan TF untuk rilis stabil latest akan digunakan. Jika tidak, versi image buruh pelabuhan akan cocok dengan versi TF yang diinstal secara lokal. Namun, gambar buruh pelabuhan TF bawaan tidak tersedia untuk TF nightlies kecuali yang terbaru. Jadi, jika TF lokal Anda adalah versi nightly yang lebih lama, kami mengupgrade ke nightly terbaru secara otomatis dan memunculkan peringatan ini.

Mencampur objek strategi distribusi.

Kesalahan seperti : RuntimeError: Mencampur objek tf.distribute.Strategy yang berbeda.

Solusi : Harap berikan distribution_strategy=None ketika Anda sudah memiliki strategi distribusi yang ditentukan dalam kode model Anda. Menentukan distribution_strategy'='auto' , akan menggabungkan kode Anda dalam strategi distribusi TensorFlow. Ini akan menyebabkan kesalahan di atas, jika sudah ada objek strategi yang digunakan dalam kode Anda.