AdaDelta

kelas publik AdaDelta

Pengoptimal yang mengimplementasikan algoritma Adadelta.

Pengoptimalan Adadelta adalah metode penurunan gradien stokastik yang didasarkan pada kecepatan pembelajaran adaptif per dimensi untuk mengatasi dua kelemahan:

  • penurunan kecepatan pembelajaran yang terus-menerus selama pelatihan
  • kebutuhan akan kecepatan pemelajaran global yang dipilih secara manual

Adadelta adalah ekstensi Adagrad yang lebih tangguh yang mengadaptasi kecepatan pembelajaran berdasarkan jendela pembaruan gradien yang bergerak, alih-alih mengumpulkan semua gradien sebelumnya. Dengan cara ini, Adadelta terus belajar meskipun banyak pembaruan telah dilakukan. Dibandingkan dengan Adagrad, di Adadelta versi asli Anda tidak perlu menyetel kecepatan pemelajaran awal. Dalam versi ini, kecepatan pembelajaran awal dapat diatur, seperti pada kebanyakan pengoptimal lainnya.

Menurut bagian 4.3 ("Kecepatan Pembelajaran Efektif"), menjelang akhir ukuran langkah pelatihan menyatu ke 1 yang secara efektif merupakan kecepatan pembelajaran tinggi yang akan menyebabkan perbedaan. Hal ini hanya terjadi menjelang akhir pelatihan karena gradien dan ukuran langkahnya kecil, serta konstanta epsilon pada pembilang dan penyebut mendominasi gradien sebelumnya dan pembaruan parameter yang menjadikan kecepatan pembelajaran menjadi 1.

Menurut bagian 4.4("Data Ucapan"), di mana jaringan saraf besar dengan 4 lapisan tersembunyi dilatih pada korpus data bahasa Inggris AS, ADADELTA digunakan dengan 100 replika jaringan. Epsilon yang digunakan adalah 1e-6 dengan rho=0,95 yang konvergen lebih cepat dari ADAGRAD, dengan konstruksi berikut: new AdaDelta(graph, 1.0f, 0.95f, 1e-6f);

Konstanta

Rangkaian AKI
Rangkaian AKUMULATOR_UPDATE
mengambang EPSILON_DEFAULT
mengambang BELAJAR_RATE_DEFAULT
mengambang RHO_DEFAULT

Konstanta yang Diwarisi

Konstruktor Publik

AdaDelta ( Grafik grafik )
AdaDelta (Grafik grafik , kecepatan pembelajaran mengambang)
Membuat Pengoptimal AdaDelta
AdaDelta (Grafik grafik , float learningRate, float rho, float epsilon)
Membuat Pengoptimal AdaDelta
AdaDelta (Grafik grafik , Nama string, Tingkat pembelajaran mengambang)
Membuat Pengoptimal AdaDelta
AdaDelta (Grafik grafik , Nama string, Kecepatan pembelajaran float, float rho, float epsilon)
Membuat Pengoptimal AdaDelta

Metode Publik

Rangkaian
dapatkan Nama Pengoptimal ()
Dapatkan Nama pengoptimal.
Rangkaian

Metode Warisan

Konstanta

AKUMULATOR String akhir statis publik

Nilai Konstan: "akum"

String akhir statis publik ACCUMULATOR_UPDATE

Nilai Konstan: "accum_update"

float akhir statis publik EPSILON_DEFAULT

Nilai Konstan: 1.0E-7

float akhir statis publik LEARNING_RATE_DEFAULT

Nilai Konstan: 0,001

float akhir statis publik RHO_DEFAULT

Nilai Konstan: 0,95

Konstruktor Publik

AdaDelta publik ( Grafik grafik)

AdaDelta publik (Grafik grafik , tingkat pembelajaran mengambang)

Membuat Pengoptimal AdaDelta

Parameter
grafik Grafik TensorFlow
Tingkat pembelajaran kecepatan pembelajaran

AdaDelta publik ( Grafik grafik, float learningRate, float rho, float epsilon)

Membuat Pengoptimal AdaDelta

Parameter
grafik Grafik TensorFlow
Tingkat pembelajaran kecepatan pembelajaran
rho Faktor pembusukan
epsilon Epsilon konstan digunakan untuk mengkondisikan pembaruan lulusan dengan lebih baik

AdaDelta publik (Grafik grafik , Nama string, Tingkat pembelajaran mengambang)

Membuat Pengoptimal AdaDelta

Parameter
grafik Grafik TensorFlow
nama nama untuk Pengoptimal ini (defaultnya adalah 'Adadelta')
Tingkat pembelajaran kecepatan pembelajaran

AdaDelta publik ( Grafik grafik, Nama string, Kecepatan pembelajaran float, float rho, float epsilon)

Membuat Pengoptimal AdaDelta

Parameter
grafik Grafik TensorFlow
nama nama untuk Pengoptimal ini (defaultnya adalah 'Adadelta')
Tingkat pembelajaran kecepatan pembelajaran
rho Faktor pembusukan
epsilon Epsilon konstan digunakan untuk mengkondisikan pembaruan lulusan dengan lebih baik

Metode Publik

String publik getOptimizerName ()

Dapatkan Nama pengoptimal.

Kembali
  • Nama pengoptimal.

String publik keString ()