当前位置：首页 > news >正文

【强化学习】马尔可夫决策过程MDP

news 2026/2/8 4:54:58

1.马尔可夫决策过程MDP

1.1 MDP五元组

$MDP=<S,A,P,R,γ>MDP=<\mathcal{S},\mathcal{A},\mathcal{P},\mathcal{R},\mathcal{\gamma}>$ ，其中：

$S\mathcal{S}$ ：状态空间
$A\mathcal{A}$ ：动作空间
$P\mathcal{P}$ ： $P(s′∣s,a)\mathcal{P(s'|s,a)}$ 为状态转移函数，表示采取动作 $a$ 从状态 $s$ 转移到状态 $s^{'}$ 的概率
$R\mathcal{R}$ ：奖励函数 $R(s,a)\mathcal{R(s,a)}$ ，表示在状态 $s$ 下采取动作 $a$ 后的奖励。
$γ\mathcal{\gamma}$ ：折扣因子 $γ∈[0,1)\gamma \in [0,1)$ ，取值越大越注重长期积累的奖励。

MDP与MRP的区分
MDP与马尔可夫奖励过程 $MRP=<S,P,r,γ>MRP=<\mathcal{S},\mathcal{P},\mathcal{r},\mathcal{\gamma}>$ 的区别在于状态转移和奖励函数不依赖于动作 $a$ 。举例：船在海上自由飘荡是一个MRP，船由水手掌舵在海上航行是一个MDP。

1.2 Agent与MDP环境的交互

在这里插入图片描述
Agent通过 $r_t$ 学习策略，agent通过学习到的策略针对当前环境状态 $s_t$ 采取相应动作 $a_t$ ，该动作与环境交互后，环境中的状态将转移到新的状态 $s_{t+1}$ ，同时获得奖励 $r_{t+1}$ 。Agent的目标是最大化累积奖励的期望。

1.2.1 策略policy

策略用 $π\pi$ 表示，策略是一个函数，是agent学习的目标。策略会输出在状态 $s$ 下采取各个action的概率，即 $π(a∣s)=P(At=a∣St=s)\pi(a|s)=P(A_t=a|S_t=s)$ .

1.2.2 状态价值函数 $V (s)$

$Vπ(s)V^\pi(s)$ 表示从状态 $s$ 出发，采取策略 $π\pi$ 获得回报的期望，即
$Vπ(s)=Eπ[Gt∣St=s]V^\pi(s) = E_\pi[G_t|S_t=s]$

1.2.3 动作价值函数Q(a|s)

$Qπ(a∣s)Q^\pi(a|s)$ 表示MDP遵循策略 $π\pi$ ，在状态 $s$ 下采取动作 $a$ 后得到回报的期望，即：
$Qπ(a∣s)=Eπ[Gt∣St=s,At=a]Q^\pi(a|s)= E_\pi[G_t|S_t=s,A_t=a]$

$Vπ(s)V^\pi(s)$ 与 $Qπ(a∣s)Q^\pi(a|s)$ 的关系？
使用策略 $π\pi$ ， $Vπ(s)V^\pi(s)$ 为采取动作 $a$ 的概率乘在状态 $s$ 下采取动作 $a$ 的动作价值的累加和，即：
$Vπ(s)=∑a∈Aπ(a∣s)Qπ(a∣s)V^\pi(s)=\sum_{a\in \mathcal{A}}\pi(a|s)Q^\pi(a|s)$

1.2.4 贝尔曼期望方程

$Vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+γVπ(s′)∣St=s]=r(s,a)+γ\begin{aligned} V^\pi(s) &= E_\pi[G_t|S_t=s]\\ &=E_\pi[R_t+\gamma V^\pi(s')|S_t=s]\\ & =r(s,a)+\gamma \end{aligned}$

$Qπ(a∣s)=Eπ[Gt∣St=s,At=a]=Eπ[Rt+γQπ(s′∣s,a)∣St=s,At=a]\begin{aligned} Q^\pi(a|s) &= E_\pi[G_t|S_t=s,A_t=a]\\ &=E_\pi[R_t+\gamma Q^\pi(s'|s,a)|S_t=s,A_t=a] \end{aligned}$