在许多强化学习算法中,策略被建模为高斯分布,神经网络输出高斯分布的均值和标准差,而计算损失函数时需要用到高斯分布采样出的动作。但是根据高斯分布来采样动作的过程是不可导的

因此,我们需要用到重参数化技巧 (reparameterization trick)。重参数化的做法是先从一个标准高斯分布 采样,再把采样值乘以标准差加上均值。这等价于从策略的高斯分布采样,并且对于策略函数可导。此时可以将动作表示为 ,其中 是一个噪声分布变量, 是策略网络的参数, 是状态。