Optimizador que implementa el algoritmo de Adam.
La optimización de Adam es un método de descenso de gradiente estocástico que se basa en la estimación adaptativa de momentos de primer y segundo orden.
Según Kingma et al., 2014, el método es "computacionalmente eficiente, tiene pocos requisitos de memoria, invariante al reajuste diagonal de gradientes y es adecuado para problemas que son grandes en términos de datos / parámetros".
@ver Kingma et al., 2014, Adam: Un método para la optimización estocástica .
Constantes
| flotador | BETA_ONE_DEFAULT | |
| flotador | BETA_TWO_DEFAULT | |
| flotador | EPSILON_DEFAULT | |
| Cuerda | PRIMER MOMENTO | |
| flotador | LEARNING_RATE_DEFAULT | |
| Cuerda | SEGUNDO_MOMENTO |
Constantes heredadas
Constructores públicos
Adam ( gráfico de gráfico, nombre de cadena, tasa de aprendizaje flotante) Crea un optimizador de Adam | |
Adam ( gráfico de gráfico, nombre de cadena, tasa de aprendizaje flotante, flotante betaOne, flotante betaTwo, flotante épsilon) Crea un optimizador de Adam |
Métodos públicos
| estático <T extiende TType > Op | createAdamMinimize ( alcance del alcance, pérdida del operando <T>, tasa de aprendizaje flotante, betaOne flotante, betaTwo flotante, epsilon flotante, Opciones ... opciones) Crea la Operación que minimiza la pérdida |
| Cuerda | getOptimizerName () Obtenga el nombre del optimizador. |
| Cuerda | toString () |
Métodos heredados
Constantes
flotador final estático público BETA_ONE_DEFAULT
flotador final estático público BETA_TWO_DEFAULT
flotador final estático público EPSILON_DEFAULT
Cadena final estática pública FIRST_MOMENT
flotador final estático público LEARNING_RATE_DEFAULT
Cadena final estática pública SECOND_MOMENT
Constructores públicos
Adam público ( gráfico gráfico)
Crea un optimizador de Adam
Parámetros
| grafico | el gráfico de TensorFlow |
|---|
Adam público ( gráfico gráfico, tasa de aprendizaje flotante)
Crea un optimizador de Adam
Parámetros
| grafico | el gráfico de TensorFlow |
|---|---|
| tasa de aprendizaje | la tasa de aprendizaje |
public Adam ( gráfico gráfico, tasa de aprendizaje flotante, flotante betaOne, flotante betaTwo, flotante épsilon)
Crea un optimizador de Adam
Parámetros
| grafico | el gráfico de TensorFlow |
|---|---|
| tasa de aprendizaje | la tasa de aprendizaje |
| betaOne | La tasa de caída exponencial para las estimaciones del primer momento. El valor predeterminado es 0.9. |
| betaTwo | La tasa de caída exponencial para las estimaciones del segundo momento. El valor predeterminado es 0.999. |
| épsilon | Una pequeña constante para la estabilidad numérica. Este épsilon es "sombrero épsilon" en el artículo de Kingma y Ba (en la fórmula anterior a la Sección 2.1), no el épsilon en el algoritmo 1 del artículo. El valor predeterminado es 1e-8. |
public Adam ( gráfico gráfico, nombre de cadena, tasa de aprendizaje flotante)
Crea un optimizador de Adam
Parámetros
| grafico | el gráfico de TensorFlow |
|---|---|
| nombre | el nombre del Optimizador, el valor predeterminado es "Adam" |
| tasa de aprendizaje | la tasa de aprendizaje |
public Adam ( gráfico gráfico, nombre de cadena, tasa de aprendizaje flotante, flotante betaOne, flotante betaTwo, flotante épsilon)
Crea un optimizador de Adam
Parámetros
| grafico | el gráfico de TensorFlow |
|---|---|
| nombre | el nombre del Optimizador, el valor predeterminado es "Adam" |
| tasa de aprendizaje | la tasa de aprendizaje |
| betaOne | La tasa de caída exponencial para las estimaciones del primer momento. El valor predeterminado es 0.9. |
| betaTwo | La tasa de caída exponencial para las estimaciones del segundo momento. El valor predeterminado es 0.999. |
| épsilon | Una pequeña constante para la estabilidad numérica. Este épsilon es "sombrero épsilon" en el artículo de Kingma y Ba (en la fórmula anterior a la Sección 2.1), no el épsilon en el algoritmo 1 del artículo. El valor predeterminado es 1e-8. |
Métodos públicos
public static Op createAdamMinimize ( alcance del alcance, pérdida del operando <T>, tasa de aprendizaje flotante, betaOne flotante, betaTwo flotante, epsilon flotante, Opciones ... opciones)
Crea la Operación que minimiza la pérdida
Parámetros
| alcance | el alcance de TensorFlow |
|---|---|
| pérdida | la pérdida para minimizar |
| tasa de aprendizaje | la tasa de aprendizaje |
| betaOne | La tasa de caída exponencial para las estimaciones del primer momento. |
| betaTwo | La tasa de caída exponencial para las estimaciones del segundo momento. |
| épsilon | Una pequeña constante para la estabilidad numérica. Este épsilon es "sombrero épsilon" en el artículo de Kingma y Ba (en la fórmula anterior a la Sección 2.1), no el épsilon en el algoritmo 1 del artículo. |
| opciones | Atributos opcionales del optimizador |
Devoluciones
- la Operación que minimiza la pérdida
Lanza
| Argumento de excepción ilegal | si el alcance no representa un gráfico |
|---|
public String getOptimizerName ()
Obtenga el nombre del optimizador.
Devoluciones
- El nombre del optimizador.