Markov Decision Process
一个Markov Desion Process(MDP) 是一个五元组(S,A,p,r,γ), 满足
- S 状态空间,是系统在每个时间步的状态集合
- A 动作空间,是系统在每个状态下可以采取的动作的集合
- p(s′∣s,a) 状态转移概率,从状态s通过行为a转移到状态s′到概率
- r:S×A→R=E(R∣s,a) 奖励函数,在状态s下执行行为a的全部奖励的期望
- γ∈[0,1] 衰减因子,每个时间步中的奖励衰减
MDP通常可可视化表示为一个有向图,每一个状态为一个点,所有的边的集合为动作空间A. 边的权为奖励函数
记
As={a∣s→as′,∀s′∈St+1}
为状态 s 的动作空间
Markov Property
Markov特性指当前时间步的状态转移概率、奖励累计与前面时间步的对应量是相互独立的
p(St+1=s′,Rt+1=r∣St,At)=p(St+1=s′,Rt+1=r∣St,At,St−1,At−1,⋯)
MDP的奖励返回
- Undiscounted Return
不考虑衰减因子的总奖励Gt=k=0∑T−t−1Rt+k+1
- Discounted Return
Gt=k=0∑T−t−1γkRt+k+1
- Average Return
Gt=T−t−11k=0∑t+k+1Rt+k+1
Agent Policy 智能体策略
Goal of RL Agent
To find a behavior policy that maximises the expected return Gt
智能体策略的精神是寻找到最大的奖励
Policy 智能体策略
- 宏观(全局定义)
由智能体主导的全局决策法则。在 MDP 的有向图结构中,它表现为从状态空间向动作空间发出的概率分配(边权)。它在面对环境给定的庞大图网络时,通过裁剪和概率倾斜,决定了智能体在图中游走的整体行为倾向。
- 微观(逐点定义)
智能体在状态s下执行某一动作a的概率
策略数学表达为
π:S→P(A)⊂[0,1],π(a∣s)=p(At=a∣St=s)
如果存在可学习的参数 θ,则记作
πθ(a∣s)
对于离散动作空间,策略满足
a∈As∑πθ(a∣s)=1
对于连续动作空间,策略满足
∫a∈Asπθ(a∣s)da=1
Value Function 价值函数
vπ(s)=E(Gt∣St=s,π)
Q Function
Q Function 指的是在状态St=s,执行动作At=a下的价值期望函数
qπ(s,a)=E(Gt∣St=s,At=a,π)=E(k=0∑∞γkRt+k+1∣St=s,At=a,π)
根据全概率公式,价值函数满足
vπ(s)=a∈As∑π(a∣s)qπ(s,a)
Optimal Value Function 最优化价值函数
Optimal state-value function 最优状态价值函数,是在所有策略中的最大状态价值函数
v∗(s)=πmaxvπ(s)
Optimal action-value function 最优动作价值函数,是在所有策略中的最大动作价值函数
q∗(s,a)=πmaxqπ(s,a)
Claim: 解决一个 MDP 的本质就是寻找最优策略. 一旦求解出最优价值函数,我们便称该马尔可夫决策过程(MDP)得到了解决(Solved)
在此基础上,我们定义策略的偏序关系
π′≥π⟺∀s∈S,vπ′(s)≥vπ(s)
根据Zorn Lemma,最优策略总存在
Optimal policy 最优策略
最优策略π∗满足
∀π∈Π,π≤π∗
Bellman Equation
Action Value Function 的时间步展开
qπ(s,a)=E(Gt∣ST=s,At=a,π)=E(Rt+1+γvπ(St+1)∣St=s,At∈π(St),π)=r∈Rt+1∑s′∈St+1∑p(r,s′∣s,a)(r+γvπ(s′))=a∈A(s)∑π(a∣s)r∈Rt+1∑s′∈St+1∑p(r,s′∣s,a)(r+γa′∈A(s′)∑(π(a′∣s′)qπ(s′,a′)))
Value Function 的时间步展开
vπ(s)=a∑π(a∣s)qπ(s,a)=a∈A(s)∑π(a∣s)r∈Rt+1∑s′∈St+1∑p(r,s′∣s,a)(r+γvπ(s′))
Bellman Expectation Equation Bellman期望方程刻画了状态价值函数与行为价值函数的递归关系。
对于给定的MDP, M=(S,A,p,r,γ), 对于任意策略π,价值函数满足
vπ(s)qπ(s,a)=a∈A(s)∑π(a∣s)r∈Rt+1∑s′∈St+1∑p(r,s′∣s,a)(r+γvπ(s′))=a∈A(s)∑π(a∣s)r∈Rt+1∑s′∈St+1∑p(r,s′∣s,a)(r+γa′∈A(s′)∑(π(a′∣s′)qπ(s′,a′)))(1)(2)