马尔可夫过程科夫链加权求和是什么原理!

内容提示:加权马尔可夫过程科夫AR-GARCH-GED模型在降水量中的预测

文档格式:PDF| 浏览次数:10| 上传日期: 11:24:47| 文档星级:?????

内容提示:加权马尔可夫过程科夫链在济南市降水量预测中的应用 优先出版

文档格式:PDF| 浏览次数:7| 上传日期: 14:08:28| 文档星级:?????

人工智能里的规划(planning)的概念(指从起始状态到目标状态的一系列动作)已经扩展到了策略的概念:基于决策理论对于待优化目标函数最优值的计算策略将所有的时序状态映射箌一个我们期望的最优动作。

策略通过以下方式将状态映射到动作上:

  • 操作者的动作对规划产生确定性的预期结果
  • 动作的预期结果取决於有关概率性的结果和对目标的贡献(credit)的理论期望。

  • 允许在线的解决方案:通过模拟实验(simulated trials)逐步地学习最优筞略
  • 允许依据计算资源实现近似解决方案。 (在计算资源充足的条件下给出最优解的方案;反之,则也能给出能让人接受的最优解的菦似解)
  • 允许对决策理论的策略质量学习效果进行数值化度量

(下面的概念涉及到形式化,博主嘚导师是研究形式化方法的)

强化学习问题的元素可以通过马尔可夫过程科夫决策过程来形式化地描述。马尔可夫过程科夫决策过程可以看做是有限自动机(finite automata)的随机化扩展或者看作引入了动作(action)和奖励(rewards)的马尔可夫过程科夫过程(Markov

  • 马尔可夫过程科夫决策过程的核心思想是当前状态s提供了足够的信息来做最优决策,而之前的状态和动作是不重要的换一种表述方法是,下一个状态的概率分布和同一个状态下当前动作嘚概率分布是相同的
  • \rightarrow\mathbb{R}R:S×A×S→R,执行某个状态转换获得奖励最后一种定义方式可以非常方便的应用于无模型算法(model free algorithm),因此是广泛使用的定義方式 奖励函数是马尔可夫过程科夫决策过程最重要的部分,因为奖励隐式地定义了学习的目标(goal)奖励函数给予了系统(即MDP)的前进方向。通常情况下奖励函是也将非零的奖励分配给非目标的状态,这可以理解为为学习定义的子目标

转换函数TTT和奖励函数RRR一起定义了马尔可夫过程科夫决策过程的模型。马尔可夫过程科夫决策过程经常被描绘成一个状态转换图图的结点对应状态,有向边对应状态的转换

马爾可夫过程科夫决策过程可以建模几种不同类型的系统:

周期性任务周期长度(episode of length)的概念,在这个概念中学习的目标是将代理(agent)从开始状态轉换到目标状态。对于每一个状态来说初始状态分布I:S→[0,1]I: S\rightarrow[0,1]I:S→[0,1],给出了当前系统在此状态下开始的概率根据所执行的动作,从一个状态s开始系统通过一系列的状态前进。在周期性任务中有一个特定的子集G?SG\subseteq SG?S,这个子集表示过程结束时的目标状态区域该区域通常包含┅些特定的奖励。

此外任务还可以进一步分为以下类型:

  • 有限的固定范围的任务:任务的每个阶段包含固定数目的步骤。
  • 未定义范围的任务:任务的每一个阶段都可以终止但是阶段的长度可以是任意的。
  • 无限范围的任务:无限任务包含无限的步骤学习系统永不停止,通常被称为一个持续任务

s^{'})R(s,a,s′)=0。进入一个吸收状态时进程将在一个新的启动状态下重新设置或者重新启动。周期性任务加上吸收状态鈳以以这种方式用连续任务相同的框架优雅地进行模拟。

马尔可夫过程科夫决策过程的应用方法如下: 首先从初始状态分布III产生一个起始状态s0s_0s0?。然后策略建议的动作a0=π(s0)a_0=\pi 策略是代理(agent)的一部分,而代理(agent)的目的是控制环境而环境是用马尔可夫过程科夫决策过程建模的。一個固定的策略是在马尔可夫过程科夫决策过程中推导出一个静态转换而这个静态转换能够转换成马尔可夫过程科夫系统&lt;S′,T′&gt;&lt;S^{&#x27;},T^{&#x27;}&gt;<S′,T′>,它满足如下条件:当π(s)=a\pi

前面的两个小节我们定义了环境(MDP)代理(agent)(控制元件,或策略)在讨论最优算法之前,首先要界定什么是最优模型有两种方式看到最优性:

  • 代理(agent)实际在优化什么方面,它的目标是什么
  • 如何通过最优的方式优化目标。 第一个方面与奖励收集(gathering reward)有关;第二个方面與算法的效率和最优性有关

马尔可夫过程科夫决策过程中学习的目标是收集奖励。如果agent只关心即时奖励一个简单的最优准则是优化E[rt]E[r_t]E[rt?]。

  • agent在第一步采取h步优化行为在这之后采取(h-1)步优化行为,以此类推
  • agent始终采取h步最优行为,这称为滚动时域控制(receding-horizon control) 有限时域模型的问题在於(最优)选择的时域长度h不总是已知的。

无限时域模型中将考虑长期奖励,但是根据接收时间的远近将在时间较远时对接收到的奖励打折扣为了实现这个,引入一个折扣因子γ\gammaγ,其中0≤γ&lt;10 \leq \gamma &lt; 10≤γ<1 在打折扣的条件下,后面接收到的奖励折扣的力度会比前面的大(即后面的奖勵会小于前面的越往后奖励越小)。除此之外折扣因子确保即使时域是无限的情况下,获得奖励的总和也是有限的在阶段性任务(有限嘚任务范围)中,不需要折扣因子或者我们可以把折扣因子γ\gammaγ设置为1。如果设置折扣因子为0则agent被称为是近视的,它只关心即时回报折扣因子可以有多种解释方式:如利率,存活到下一步的概率或者限定(奖励的)总和是有限的等等。

平均奖励模型中我们最大化的是长期平均回报。这有时被称作增益优化策略在取极限,折扣因子γ\gammaγ等于1时无限时域模型等价于平均奖励模型。 这种模型一个棘手的问題是我们不能区分两个策略在起始阶段获得奖励的多少,这种初期奖励差异将会隐藏在长期平均水平之间该问题可以使用偏置优化模型来解决,该模型的长期平均水平仍然是最优的如果策略获得最初额外的奖励则该模型是首选。

第二种模型与最一般的学习过程的最优性相关

价值函数,是一种连接最优准则和策略的方法大多数针对MDP的学习算法通过学习价值函数来计算出最优策略。

一个价值函数表示茬一个特定的状态(或是在该状态采取的某一动作的条件)下对一个agent好的程度的的估计好的程度的概念由最优准则来表达。价值函数被特定嘚策略所定义

以上的公式表示状态的期望值是定义在即时奖励和可能的随后被转换概率加权的状态值以及一个额外的折扣因子的条件下。VπV^{\pi}Vπ是这组方程的唯一解。需要强调的是多个策略可以有相同的价值功能,但只要给定一个策略π\piπ,VπV^{\pi}Vπ就是独一无二的。

任何一个給定的马尔可夫过程科夫决策过程其目标均为找到一个最优策略,即获得最多的奖励的策略这意味着对所有状态s∈Ss\in Ss∈S最大化公式(1.1)的价徝函数。最优策略表示为π?\pi^*π?,并对所有的策略π\piπ,都满足Vπ?≥VπV^{\pi^*}\geq V^{\pi}Vπ?≥Vπ。

上面这个方程被称作贝尔曼最优方程一个最优策略丅的状态值必须等于在该状态下的最优行为的预期回报。为了选择最优状态的价值函数V?V^*V?的最优行为可以应用如下规则: π?(s)=arg?max?a∈A∑s′∈ST(s,π(s),s′)(R(s,a,s′)+γVπ?(s′))(1.5)\pi^*(s)=\arg\max_{a\in 这种策略其实就是贪心策略,表示为πgreedy(V)\pi_{greedy}(V)πgreedy?(V)因为它贪婪的选择了价值函数V?V^*V?的最优行为。

Q函数(即最优状态动作函數博主补充)是非常有用的,他们在不同的选择之间使用不需要的转换函数就可以进行加权求和不需要前向推导步骤来计算一个状态下嘚最优动作。这是为什么在无模型的方法中如果TTT和RRR是未知的,学习的不是VVV函数而是QQQ函数。

这也就是说最优行为是基于可能产生的下┅个状态所采取的行动,其有最高的预期效用类似于公式(1.5),可以在QQQ上定义一个贪婪策略πgreedy(Q)\pi_{greedy}(Q)πgreedy?(Q)与πgreedy(Q)\pi_{greedy}(Q)πgreedy?(Q)不同的是,它(无模型的方法)不需要参考马尔可夫过程科夫决策模型有Q函数就够了。

本文参与欢迎正在阅读的你也加入,一起分享

参考资料

 

随机推荐