Skip to content

公式3的REINFORCE公式是怎么从基本的累计奖励的形式推导出来的。 #6

@kakaxisisan

Description

@kakaxisisan

Image

如上是常见的公式形式

是怎么得到下面这种形式的?求一份详细的推导

Image

另外论文中说的:these tokens were clipped out after the first on-policy update, preventing them from contributing to subsequent off-policy gradient updates. 低概率高变化量的token为什么在第一轮更新中被裁剪掉呢?clip之后变为1-\EPSILON,但是后边的优势计算的时候没有涉及到可更新梯度的参数吗?那是不是还是会对整体梯度有影响呢?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions