아담

public class Adam<Model: Differentiable>: Optimizer
where
  Model.TangentVector: VectorProtocol & PointwiseMultiplicative
    & ElementaryFunctions & KeyPathIterable,
  Model.TangentVector.VectorSpaceScalar == Float

아담 옵티마이저.

Adam 최적화 알고리즘을 구현합니다. Adam은 경사의 1차 및 2차 적률 추정치로부터 다양한 매개변수에 대한 개별 적응형 학습률을 계산하는 확률적 경사하강법 방법입니다.

참조: "Adam: 확률론적 최적화를 위한 방법" (Kingma 및 Ba, 2014).

예:

  • 간단한 강화 학습 에이전트를 훈련시킵니다.
...
// Instantiate an agent's policy - approximated by the neural network (`net`) after defining it 
in advance.
var net = Net(observationSize: Int(observationSize), hiddenSize: hiddenSize, actionCount: actionCount)
// Define the Adam optimizer for the network with a learning rate set to 0.01.
let optimizer = Adam(for: net, learningRate: 0.01)
...
// Begin training the agent (over a certain number of episodes).
while true {
...
    // Implementing the gradient descent with the Adam optimizer:
    // Define the gradients (use withLearningPhase to call a closure under a learning phase).
    let gradients = withLearningPhase(.training) {
        TensorFlow.gradient(at: net) { net -> Tensor<Float> in
            // Return a softmax (loss) function
            return loss = softmaxCrossEntropy(logits: net(input), probabilities: target)
        }
    }
    // Update the differentiable variables of the network (`net`) along the gradients with the Adam 
optimizer.
    optimizer.update(&net, along: gradients)
    ...
    }
}
  • 생성적 적대 신경망(GAN) 훈련:
...
// Instantiate the generator and the discriminator networks after defining them.
var generator = Generator()
var discriminator = Discriminator()
// Define the Adam optimizers for each network with a learning rate set to 2e-4 and beta1 - to 0.5.
let adamOptimizerG = Adam(for: generator, learningRate: 2e-4, beta1: 0.5)
let adamOptimizerD = Adam(for: discriminator, learningRate: 2e-4, beta1: 0.5)
...
Start the training loop over a certain number of epochs (`epochCount`).
for epoch in 1...epochCount {
    // Start the training phase.
    ...
    for batch in trainingShuffled.batched(batchSize) {
        // Implementing the gradient descent with the Adam optimizer:
        // 1) Update the generator.
        ...
        let 𝛁generator = TensorFlow.gradient(at: generator) { generator -> Tensor<Float> in
            ...
            return loss
            }
        // Update the differentiable variables of the generator along the gradients (`𝛁generator`) 
        // with the Adam optimizer.
        adamOptimizerG.update(&generator, along: 𝛁generator)

        // 2) Update the discriminator.
        ...
        let 𝛁discriminator = TensorFlow.gradient(at: discriminator) { discriminator -> Tensor<Float> in
            ...
            return loss
        }
        // Update the differentiable variables of the discriminator along the gradients (`𝛁discriminator`) 
        // with the Adam optimizer.
        adamOptimizerD.update(&discriminator, along: 𝛁discriminator)
        }
}       
  • 선언

    public typealias Model = Model
  • 학습률입니다.

    선언

    public var learningRate: Float
  • 기울기의 첫 번째 모멘트를 계산하는 데 사용되는 계수입니다.

    선언

    public var beta1: Float
  • 기울기의 두 번째 모멘트를 계산하는 데 사용되는 계수입니다.

    선언

    public var beta2: Float
  • 수치 안정성을 향상시키기 위해 분모에 작은 스칼라가 추가되었습니다.

    선언

    public var epsilon: Float
  • 학습률이 감소합니다.

    선언

    public var decay: Float
  • 현재 단계.

    선언

    public var step: Int
  • 가중치의 첫 순간.

    선언

    public var firstMoments: Model.TangentVector
  • 가중치의 두 번째 순간.

    선언

    public var secondMoments: Model.TangentVector
  • 선언

    public init(
      for model: __shared Model,
      learningRate: Float = 1e-3,
      beta1: Float = 0.9,
      beta2: Float = 0.999,
      epsilon: Float = 1e-8,
      decay: Float = 0
    )

    매개변수

    learningRate

    학습률입니다. 기본값은 1e-3 입니다.

    beta1

    첫 번째 순간 추정치에 대한 지수적 감쇠율입니다. 기본값은 0.9 입니다.

    beta2

    두 번째 순간 추정에 대한 지수적 감쇠율입니다. 기본값은 0.999 입니다.

    epsilon

    수치 안정성을 향상시키기 위해 분모에 작은 스칼라가 추가되었습니다. 기본값은 1e-8 입니다.

    decay

    학습률이 감소합니다. 기본값은 0 입니다.

  • 선언

    public func update(_ model: inout Model, along direction: Model.TangentVector)
  • 선언

    public required init(copying other: Adam, to device: Device)