RL-9 Connections Between Inference and Control

用概率图的观点建立了优化控制与强化学习(Q-learning,policy gradient)之间联系,也可以解释人类动作,并且其中的inference部分是逆强化学习(Inverse Reinforcement Learning)的基础。

Material

PDF_FROM_BERKELY

VODIE_BY_LEVIN

About Human Behavior

问题的出发点是关于人类/expert的行为,如果我们构建一个model来解释它,那么仍然会使用过去的方法,maximize expected future cumulative discounted reward。

1526625070706

但是我们会发现,人类/猴子/专家的策略在很多情况下并非是最优的,而是近似于最优。下面这个例子,猴子只要最后拿到了橘子就行,过程中会有少许弯路,但是这并不重要。

1526625223761

这说明了以下三点:

  • some mistakes matter more than others!
  • behavior is stochastic
  • but good behavior is still the most likely

因此我们需要引入概率图模型(A probabilistic graphical model of decision making )来解释人类的行为。

Inference with A probabilistic graphical model of decision making

probabilistic graphical model

1526625345029

带来的好处:

  • Can model suboptimal behavior (important for inverse RL)
  • Can apply inference algorithms to solve control and planning problems
  • Provides an explanation for why stochastic behavior might be preferred (useful for exploration and transfer learning)

上图中:

Inference

1526626096713

这里规定了 上上张ppt有推导过程。这里有三点很重要:backward message, policy, forward message

Backward messages

computation

指当前状态当前动作下,未来的Optimality都为1的概率。计算过程如下:

1526628809975

注意这里两点:

connection with value iteration

1526643212644

这里对V和Q重新定义,得到V,Q之间的关系。并且,当Q越来越大,得到V等于Q,这也被称为一种softmax(不是DL里面的),指softening of the max operator。然而 这种形式很容易让人联想到value iteration。

1526646140282

参见RL_3

但是这里先去exponential再取log的做法会带来过于乐观(optimistic transition)的问题。但是deterministic transition下这不是问题,但是在stochastic transition下会带来严重的问题。

Summary

如下图:

1526646521270

开始递归到来计算backward message。并且 is “Q-function-like”。

当action prior不为uniform distribution时,如下图:

1526647759608

Policy computation

计算policy,使用贝叶斯公式可以得到下图中的公式:

1526648056249

policy computer with value functions

1526648210420

使用backward message 计算 value function,其中policy的值是exponential of advantage function, 这个结果是很符合直觉的。如果某一个action对应的advantage较大,则其在policy中的取值概率也应该较大。

Summary

1526648684081

  • Natural interpretation: better actions are more probable
  • Random tie-breaking
  • Analogous to Boltzmann exploration
  • Approaches greedy policy as temperature decreases

Forward messages

与下一讲的Inverse Reinforcement Learning右较强的联系

derivation

1526649774382

Forward/backward message intersection

1526650367425

Summay

  1. Probabilistic graphical model for optimal control

1526650616049

  1. . Control = inference (similar to HMM, EKF, etc.)

  2. Very similar to dynamic programming, value iteration, etc. (but “soft”)

Algorithm with Soft Optimality

Q-learning with soft optimality

使用softening max 代替 normal max来求下一个state下的max value function。

并且计算policy的方式变为对advantage funtion取exponential。

1526717351798

Policy gradient with soft optimality

optimizes 即使用policy gradient with soft optimality所要提升的目标除了expected future total reward之外,还有一项policy entropy作为正则项。其意义是防止policy提早崩塌为deterministic policy。

1526719788682

参见两篇paper

Equivalence Between Policy Gradients and Soft Q-Learning

Bridging the Gap Between Value and Policy Based Reinforcement Learning

说明policy gradient with soft optimality 与Q learning with soft optimality之间联系十分紧密,以下是推导过程:

1526721615691

可以发现,policy gradient的计算形式与Q-learning是即为相似的,前者是gradient ascent所以是加一个(正)值,后者是gradient descent所以是减去一个(负)值。

Benefits of soft optimality

  • Improve exploration and prevent entropy collapse
  • Easier to specialize (finetune) policies for more specific tasks
  • Principled approach to break ties
  • Better robustness (due to wider coverage of states)
  • Can reduce to hard optimality as reward magnitude increases
  • Good model for modeling human behavior (more on this later inverse reinforcement learnig)

Practical

Stochastic models for learning control

人们发现,使用同一套policy gradient算法和略微不同的超参设置来让MuJoCo小人奔跑,小人学会了全然不同的奔跑方式。虽然二者学会的方式都有较高的reward,但是这说明agent在学习时如果在exploration上有一点区别,将会导致较大的学习结果。较为直观的解释是:RL算法一旦发现了一块有较高reward的region,将会reinforce这块region,会较快陷入local optimal。

1526733562292

可以使用soft optimality方法来进行exploration。

1526733778816

首先回忆conventional Q-learning中exploration的方式是通过-greedy进行的。但我们也可以使用soft方式进行。选取action的策略概率正比于advantage function的exponential。

Tractable ?

那么soft optimality在实做上该怎么进行?因为Q-function会十分复杂,带来的问题是很难从中sample新的data。

以下是Soft Q-learning的过程:

1526734379590

中做sample方法,以下是一种思路:

1526734684953

添加一个stochastic network(类似imitation learnig中的implicit density model)进行sample,输入是state,输出时action,actoin要求与Q正相关。这个思路类似于GAN,Q-network好比是discriminator,Stochastic network好比是generator。来自这篇paper 《Learning to Draw Samples: With Application to Amortized MLE for Generative Adversarial Learning》

那么这个方法有什么好处呢?下面是一个quadruped random walk,然后迁移到specific task(run down a hallway)的例子。

在under specified reward function (for example下图中的quadruped超任意方向运动都有reward,不care方向指care速度) 中,standard reinforcement learning algorithm(比如DDPG)会随意选取一个方向来break a tie (好比quadruped会选取一个方向运动)。但是由于entropy maximization in the controller inference framework, 所以任何soft optimality algorithm 无论是Q learning 还是 policy gradient都会maximize the randomness of the behavior。

1526735825995

将spider-like quadruped做pretrained并迁移到一个run down a hallway的环境下,由于maximum entropy policies 的原因,在epoch100和200时,MAXENT init的quadruped相较于DDPG和random的quadruped要走的远。

hackerHugo wechat
一个一万年没有更新的公众号