Optimizador que implementa el algoritmo de Adam.
La optimización de Adam es un método de descenso de gradiente estocástico que se basa en la estimación adaptativa de momentos de primer y segundo orden.
Según Kingma et al., 2014, el método es "computacionalmente eficiente, tiene pocos requisitos de memoria, invariante al reajuste diagonal de gradientes y es adecuado para problemas que son grandes en términos de datos / parámetros".
@ver Kingma et al., 2014, Adam: Un método para la optimización estocástica .
Constantes
flotador | BETA_ONE_DEFAULT | |
flotador | BETA_TWO_DEFAULT | |
flotador | EPSILON_DEFAULT | |
Cuerda | PRIMER MOMENTO | |
flotador | LEARNING_RATE_DEFAULT | |
Cuerda | SEGUNDO_MOMENTO |
Constantes heredadas
Constructores públicos
Adam ( gráfico de gráfico, nombre de cadena, tasa de aprendizaje flotante) Crea un optimizador de Adam | |
Adam ( gráfico de gráfico, nombre de cadena, tasa de aprendizaje flotante, flotante betaOne, flotante betaTwo, flotante épsilon) Crea un optimizador de Adam |
Métodos públicos
estático <T extiende TType > Op | createAdamMinimize ( alcance del alcance, pérdida del operando <T>, tasa de aprendizaje flotante, betaOne flotante, betaTwo flotante, epsilon flotante, Opciones ... opciones) Crea la Operación que minimiza la pérdida |
Cuerda | getOptimizerName () Obtenga el nombre del optimizador. |
Cuerda | toString () |
Métodos heredados
Constantes
flotador final estático público BETA_ONE_DEFAULT
flotador final estático público BETA_TWO_DEFAULT
flotador final estático público EPSILON_DEFAULT
Cadena final estática pública FIRST_MOMENT
flotador final estático público LEARNING_RATE_DEFAULT
Cadena final estática pública SECOND_MOMENT
Constructores públicos
Adam público ( gráfico gráfico)
Crea un optimizador de Adam
Parámetros
grafico | el gráfico de TensorFlow |
---|
Adam público ( gráfico gráfico, tasa de aprendizaje flotante)
Crea un optimizador de Adam
Parámetros
grafico | el gráfico de TensorFlow |
---|---|
tasa de aprendizaje | la tasa de aprendizaje |
public Adam ( gráfico gráfico, tasa de aprendizaje flotante, flotante betaOne, flotante betaTwo, flotante épsilon)
Crea un optimizador de Adam
Parámetros
grafico | el gráfico de TensorFlow |
---|---|
tasa de aprendizaje | la tasa de aprendizaje |
betaOne | La tasa de caída exponencial para las estimaciones del primer momento. El valor predeterminado es 0.9. |
betaTwo | La tasa de caída exponencial para las estimaciones del segundo momento. El valor predeterminado es 0.999. |
épsilon | Una pequeña constante para la estabilidad numérica. Este épsilon es "sombrero épsilon" en el artículo de Kingma y Ba (en la fórmula anterior a la Sección 2.1), no el épsilon en el algoritmo 1 del artículo. El valor predeterminado es 1e-8. |
public Adam ( gráfico gráfico, nombre de cadena, tasa de aprendizaje flotante)
Crea un optimizador de Adam
Parámetros
grafico | el gráfico de TensorFlow |
---|---|
nombre | el nombre del Optimizador, el valor predeterminado es "Adam" |
tasa de aprendizaje | la tasa de aprendizaje |
public Adam ( gráfico gráfico, nombre de cadena, tasa de aprendizaje flotante, flotante betaOne, flotante betaTwo, flotante épsilon)
Crea un optimizador de Adam
Parámetros
grafico | el gráfico de TensorFlow |
---|---|
nombre | el nombre del Optimizador, el valor predeterminado es "Adam" |
tasa de aprendizaje | la tasa de aprendizaje |
betaOne | La tasa de caída exponencial para las estimaciones del primer momento. El valor predeterminado es 0.9. |
betaTwo | La tasa de caída exponencial para las estimaciones del segundo momento. El valor predeterminado es 0.999. |
épsilon | Una pequeña constante para la estabilidad numérica. Este épsilon es "sombrero épsilon" en el artículo de Kingma y Ba (en la fórmula anterior a la Sección 2.1), no el épsilon en el algoritmo 1 del artículo. El valor predeterminado es 1e-8. |
Métodos públicos
public static Op createAdamMinimize ( alcance del alcance, pérdida del operando <T>, tasa de aprendizaje flotante, betaOne flotante, betaTwo flotante, epsilon flotante, Opciones ... opciones)
Crea la Operación que minimiza la pérdida
Parámetros
alcance | el alcance de TensorFlow |
---|---|
pérdida | la pérdida para minimizar |
tasa de aprendizaje | la tasa de aprendizaje |
betaOne | La tasa de caída exponencial para las estimaciones del primer momento. |
betaTwo | La tasa de caída exponencial para las estimaciones del segundo momento. |
épsilon | Una pequeña constante para la estabilidad numérica. Este épsilon es "sombrero épsilon" en el artículo de Kingma y Ba (en la fórmula anterior a la Sección 2.1), no el épsilon en el algoritmo 1 del artículo. |
opciones | Atributos opcionales del optimizador |
Devoluciones
- la Operación que minimiza la pérdida
Lanza
Argumento de excepción ilegal | si el alcance no representa un gráfico |
---|
public String getOptimizerName ()
Obtenga el nombre del optimizador.
Devoluciones
- El nombre del optimizador.