Skip to content

关于DDPG中actor的loss问题 #18

@YiKangOY

Description

@YiKangOY

在您的博客中读到actor的损失函数如下。

QQ20210325-0

我的理解是,对那个目标函数的梯度做积分就是下面那个式子(只不过没有负号),然后这个目标函数加个负号就可以用来表示损失函数,不知这样理解是否正确?
还有就是,我的actor网络是输入状态s,输出一个连续的动作值a,那么对应您这个公式是否就是直接把对应S和A的crtic网络生成的Q值作为损失函数计算呢?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions