论文题目: A Comparative Analysis of Expected and Distributional Reinforcement Learning
这篇文章是分布型强化学习(Distributional RL)研究方向中综述型的一篇论文。主要贡献为从理论和实验两个角度分析了ERL(Expected RL)与DRL(Distributional RL)的异同,其中分类讨论了表格式模型、线性值函数近似和非线性值函数近似三种情景,结论为前两者情况下ERL与DRL没有区别,最后一种情况下有差异。
论文题目: Implicit Quantile Networks for Distributional Reinforcement Learning
上一篇文章(阅读笔记一)主要介绍了分布型强化学习(DisRL)的定义,以及值分布$Z(x,a)$的贝尔曼优化的方式和具体的算法;同时还介绍了P-Wasserstien度量,但却没有由于难以计算没有用上。本篇笔记则基于文章《Distributional Reinforcement Learning with Quantile Regression》,主要介绍如何利用分位数回归来计算P-Wasserstein度量;和文章《Implicit Quantile Networks for Distributional Reinforcement Learning》,主要是对于值分布引入了关于风险敏感的考量,这是在金融中常用的操作。
论文题目: Implicit Quantile Networks for Distributional Reinforcement Learning
该文的主要工作是对于分布型强化学习问题的研究,作者引入了分位数回归的技巧,来对状态动作对的值函数$Q(x,a)$的分布进行重参数化,最终在Atari游戏上取得了不错的效果。
记一下这一年发生了哪些小事。
论文题目: More Robust Doubly Robust Off-policy Evaluation
该文的主要工作是对于OPE(off-policy evaluation)问题,提出了一个更加稳定(robust)的评估器(estimator)。
论文题目: A Unified View of Entropy-Regularized Markov Decision Processes
本文的主要工作是从MDP平均回报的最优化问题角度看待目前强化学习的主流算法,并通过一些近似手段给出了这些算法的收敛性的证明(存疑)。
注:文中所有链接均用于说明市场价,而非任何意义上的推荐店铺,请注意甄别。 update:我太小白了,希望大家不要轻易听信我的推荐,我写这个只是为了记录令人开心的学习新知识的时刻~
论文题目: Lipschitz Continuity in Model-based Reinforcement Learning
本文的主要工作是给出了满足”Lipschitz连续”性质的模型中多步预测的误差界和值函数估计的误差界。