Implicit Quantile Networks for Distributional Reinforcement Learning 阅读笔记（二）

简介
P-W度量的必要性
用分位数重构
风险敏感

论文题目: Implicit Quantile Networks for Distributional Reinforcement Learning

简介

上一篇文章（阅读笔记一）主要介绍了分布型强化学习（DisRL）的定义，以及值分布$Z(x,a)$的贝尔曼优化的方式和具体的算法；同时还介绍了P-Wasserstien度量，但却没有由于难以计算没有用上。本篇笔记则基于文章《Distributional Reinforcement Learning with Quantile Regression》，主要介绍如何利用分位数回归来计算P-Wasserstein度量；和文章《Implicit Quantile Networks for Distributional Reinforcement Learning》，主要是对于值分布引入了关于风险敏感的考量，这是在金融中常用的操作。

P-W度量的必要性

与KL散度相比，P-W度量在衡量两个分布之间的距离时，能更充分地考虑两个分布之间的形状相似性。具体的例子笔者在博客中的另一篇文章（Lipschitz Continuity in Model-based Reinforcement Learning 阅读笔记中的“基础概念-W度量”和“论文推理部分——n步转移误差界”）里已讨论过，此处不再赘述。

用分位数重构

之前我们对离散点是采用等距采样，但这会导致难以计算P-W距离的，因此在第二篇文章中引入了等分位数采样，即取$\tau_i=\frac{i}{N}$和

\[Z_\theta(x,a)=\frac{1}{N} \sum_{i=1}^N\delta_{\theta_i(x,a)}\]

其中$\delta_x$表示狄拉克函数，即仅在$x$这一点上概率密度不为零的概率密度函数。

为了求解$\theta_i$，根据P-W度量的定义（以$p=1$为例），$\theta$要满足最小化

\[W_1(Z,Z_\theta)=\sum_{i=1}^N\int_{\tau_{i-1}}^{\tau_i}|F_{Z}^{-1}(\omega)-\theta_i|d\omega\]

容易解得

\[\theta_i = F_ Z ^{-1}(\hat{\tau}_i) = F_ Z^{-1}(\frac{\tau_{i-1}+\tau_i}{2})\]

下图给出简单的样例。

那么如何求解随机变量$Z$的$\hat{\tau}_i$分位数呢？

利用分位数回归的知识，我们可以最小化损失函数

\[\mathcal{L}_ {QR}(\theta) = \mathbb{E}_ {\hat{Z}\sim Z}[\rho_ \tau(\hat{Z}-\theta)] \\ \mathrm{where} \ \rho_ \tau(u)=u(\tau-\mathbb{I}\{u < 0\})\]

来求解$Z$的$\tau$分位数。

在笔者之前写的文章：分位数回归简介中有更为详细的解释和证明，欢迎读者移步。

再实际使用中，由于$\rho_ \tau(u)$在$u=0$处并不光滑，因此略微修改为

\[\rho_ \tau ^\kappa(u)=|\tau-\mathbb{I}\{u<0\}|\mathcal{L} _\kappa(u) \\ \mathrm{where} \ \mathcal{L}_ \kappa(u)=\begin{cases} \frac{1}{2}u^2 ,& \mathrm{if} |u|<\kappa\\ \kappa(|u|-\frac{1}{2}\kappa) ,& \mathrm{otherwise}& \end{cases}\]

记$\Pi_{W_1}Z:=\arg \min_{Z_\theta \in Z_Q} W_1(Z,Z_\theta)$，表示P-W度量空间中用等分位数离散点构造的最优解。

可以证明：$\Pi_{W_1}\mathcal{T}$是一个压缩映射，即

\[\bar{d}_ \infty(\Pi_{W_1}\mathcal{T}Z_1,\Pi_{W_1}\mathcal{T}Z_2)\leq\gamma\bar{d}_ \infty(Z_1,Z_2)\]

伪代码如下：

风险敏感

我们先介绍一个情景（阿莱悖论）：考虑一个选择，

A. 50%获得1000元，50%获得0元 B. 100%获得500元

大部分人都会选择后者，即使这两者的期望是一样的（$\mathbb{E}(A)=\mathbb{E}(B)$），这说明了两个选择对当事人的效用是不一样的，若我们记$U(A)$和$U(B)$分别表示对当事人的真实效用，那么应该有$\mathbb{E}(U(A)) < \mathbb{E}(U(B))$。

更一般的，如果$U$是一个凸函数，就有$\mathbb{E}(U(A)) > \mathbb{E}(U(B))$，这时我们称这是一个风险偏好者的效用;凹函数时则是风险厌恶者的效用。

同样的，当我们从$\pi(x)=\arg \max Q(x,a)$变成$\pi(x)=\arg \max \mathbb{E}Z(x,a)$时，也不得不考虑$Z(x,a)$的效用问题，即将上式修改为

\[\begin{aligned} \pi(x)&=\arg \max_a \mathbb{E}_{z\sim Z(x,a)}[U(z)] \\ &=\arg \max_a \int_{-\infty}^\infty U(z)p(z) dz \\ &=\arg \max_a \int_{-\infty}^\infty U(z)\frac{\partial}{\partial{z}}F_{Z(x,a)}(z) dz \\ &=\arg \max_a \int_{-\infty}^\infty z\frac{\partial}{\partial{z}}(h \circ F_{Z(x,a)})(z) dz \end{aligned}\]

最后一步是在金融的实际应用中常出现的变换，其中$h:[0,1]\to[0,1]$是失真度函数。

Implicit Quantile Networks for Distributional Reinforcement Learning 阅读笔记（二）

简介

P-W度量的必要性

用分位数重构

风险敏感

Similar Posts

Comments