跳转至

强化学习

约 573 个字 预计阅读时间 3 分钟

强化学习是智能体(agent)在不断与其所处环境交互的过程中进行学习的一种方法。在这种方法中,智能体通过“尝试与试错”和“探索与利用”等机制在所处状态采取行动,不断与环境交互,直至进入终止状态,根据在终止状态所获得的奖惩来改进行动策略,序贯完成决策任务。

在强化学习中,学习信号奖励形式出现,智能体在与环境交互中取得最大化收益,这种学习方式既不是从已有数据出发,也不是依赖于已有知识的学习方式,犹如“tabula rasa(拉丁语)”所蕴含的“一张白纸绘蓝图”之义,从“授之以鱼”迈向“授之以渔”

image.png|250

智能体:智能体是强化学习算法的主体,它能够根据经验做出主观判断并执行动作,是整个智能系统的核心

环境:智能体以外的一切统称为环境,环境在与智能体的交互中,能被智能体采取的动作影响,同时环境也能向智能体反馈状态和奖励。虽说智能体以外的一切都可视为环境,但在设计算法时常常会排除不相关的因素,建立一个理想的环境模型来对算法功能进行模拟

状态:状态可以理解为智能体对环境的一种理解和编码,通常包含对智能体所采取决策产生影响的信息

动作:动作是智能体对环境产生影响的方式,这里说的动作常常指概念上的动作,在设计机器人时还须考虑动作的执行机构

策略:策略是智能体在所处状态下执行某个动作的依据,即给定一个状态,智能体可根据一个策略来选择应该采取的动作

奖励:奖励是智能体序贯式采取一系列动作后从环境获得的收益。注意,奖励概念是现实中奖励和惩罚的统合,一般用正值代表实际奖励,用负值代表实际惩罚