AdaDelta

공개 클래스 AdaDelta

Adadelta 알고리즘을 구현하는 최적화 프로그램입니다.

Adadelta 최적화는 두 가지 단점을 해결하기 위해 차원당 적응형 학습 속도를 기반으로 하는 확률적 경사하강법입니다.

  • 훈련 전반에 걸쳐 학습률이 지속적으로 감소합니다.
  • 수동으로 선택한 전역 학습 속도의 필요성

Adadelta는 과거의 모든 그래디언트를 누적하는 대신 그래디언트 업데이트의 이동 창을 기반으로 학습 속도를 조정하는 Adagrad의 보다 강력한 확장입니다. 이러한 방식으로 Adadelta는 많은 업데이트가 수행된 경우에도 계속 학습합니다. Adagrad와 비교하여 Adadelta의 원래 버전에서는 초기 학습 속도를 설정할 필요가 없습니다. 이 버전에서는 대부분의 다른 옵티마이저와 마찬가지로 초기 학습률을 설정할 수 있습니다.

섹션 4.3("유효 학습률")에 따르면 훈련 단계 크기가 거의 끝나갈 무렵 1로 수렴합니다. 이는 사실상 발산을 유발하는 높은 학습률입니다. 이는 기울기와 단계 크기가 작기 때문에 훈련이 끝날 무렵에만 발생하며, 분자와 분모의 엡실론 상수는 학습률을 1로 수렴하는 과거 기울기와 매개변수 업데이트를 지배합니다.

섹션 4.4("음성 데이터")에 따르면 4개의 숨겨진 레이어가 있는 대규모 신경망이 미국 영어 데이터 모음에서 훈련되었으며 ADADELTA는 100개의 네트워크 복제본과 함께 사용되었습니다. 사용된 엡실론은 rho=0.95인 1e-6입니다. 다음 구성을 통해 ADAGRAD보다 빠르게 수렴됩니다. new AdaDelta(graph, 1.0f, 0.95f, 1e-6f);

상수

어큐뮬레이터
ACCUMULATOR_UPDATE
뜨다 EPSILON_DEFAULT
뜨다 LEARNING_RATE_DEFAULT
뜨다 RHO_DEFAULT

상속된 상수

공공 생성자

AdaDelta ( 그래프 그래프)
AdaDelta ( 그래프 그래프, float learningRate)
AdaDelta 최적화 도구 생성
AdaDelta ( 그래프 그래프, 부동 학습률, 부동 로, 부동 엡실론)
AdaDelta 최적화 도구 생성
AdaDelta ( 그래프 그래프, 문자열 이름, float learningRate)
AdaDelta 최적화 도구 생성
AdaDelta ( 그래프 그래프, 문자열 이름, float learningRate, float rho, float 엡실론)
AdaDelta 최적화 도구 생성

공개 방법

getOptimizerName ()
최적화 프로그램의 이름을 가져옵니다.

상속된 메서드

상수

공개 정적 최종 문자열 누산기

상수 값: "accum"

공개 정적 최종 문자열 ACCUMULATOR_UPDATE

상수 값: "accum_update"

공개 정적 최종 부동 EPSILON_DEFAULT

상수값: 1.0E-7

공개 정적 최종 부동 소수점 LEARNING_RATE_DEFAULT

상수값: 0.001

공개 정적 최종 부동 RHO_DEFAULT

상수값: 0.95

공공 생성자

공개 AdaDelta ( 그래프 그래프)

공개 AdaDelta ( 그래프 그래프, float learningRate)

AdaDelta 최적화 도구 생성

매개변수
그래프 TensorFlow 그래프
학습률 학습률

공개 AdaDelta ( 그래프 그래프, 부동 학습률, 부동 로, 부동 엡실론)

AdaDelta 최적화 도구 생성

매개변수
그래프 TensorFlow 그래프
학습률 학습률
붕괴 요인
엡실론 그라데이션 업데이트를 더 잘 조절하는 데 사용되는 상수 엡실론

public AdaDelta ( 그래프 그래프, 문자열 이름, float learningRate)

AdaDelta 최적화 도구 생성

매개변수
그래프 TensorFlow 그래프
이름 이 최적화 프로그램의 이름(기본값은 'Adadelta')
학습률 학습률

공개 AdaDelta ( 그래프 그래프, 문자열 이름, float learningRate, float rho, float 엡실론)

AdaDelta 최적화 도구 생성

매개변수
그래프 TensorFlow 그래프
이름 이 최적화 프로그램의 이름(기본값은 'Adadelta')
학습률 학습률
붕괴 요인
엡실론 그라데이션 업데이트를 더 잘 조절하는 데 사용되는 상수 엡실론

공개 방법

공개 문자열 getOptimizerName ()

최적화 프로그램의 이름을 가져옵니다.

보고
  • 최적화 프로그램 이름입니다.

공개 문자열 toString ()