强化学习
- 作者:成都软件开发
- 发表时间:2019-03-15 21:56
- 来源:未知
强化学习是机器学习的一个领域。加强。它是关于采取适当的行动,以在特定情况下最大化奖励。各种软件和机器使用它来找到在特定情况下应该采取的最佳行为或路径。强化学习与监督学习的不同之处在于,在监督学习中,训练数据具有答案关键,因此模型训练正确答案本身,而在强化学习中,没有答案,但强化剂决定做什么执行给定的任务。在没有训练数据集的情况下,必然要从其经验中学习。
示例:问题如下:我们有代理人和奖励,中间有很多障碍。代理人应该找到获得奖励的最佳途径。以下问题更容易解释问题。
上图显示了机器人,钻石和火。机器人的目标是获得钻石的奖励并避免火灾的障碍。机器人通过尝试所有可能的路径来学习,然后选择能够以最少的障碍获得奖励的路径。每个正确的步骤都会给机器人一个奖励,每个错误的步骤都会减去机器人的奖励。总奖励将在达到钻石的最终奖励时计算。
强化学习的要点 -
输入:输入应该是模型将从其开始的初始状态
输出:由于对特定问题有多种解决方案,因此有许多可能的输出
培训:培训基于输入,模型将返回状态,用户将根据其输出决定奖励或惩罚模型。
该模型继续学习。
最佳解决方案是根据最大奖励决定的。
强化学习与监督学习的区别:
强化学习 | 监督学习 |
---|---|
强化学习就是按顺序做出决策。简单来说,我们可以说out取决于当前输入的状态,下一个输入取决于前一个输入的输出 | 在监督学习中,决定初始输入或开始时给出的输入 |
在强化中,学习决策是依赖的,因此我们给依赖决策序列赋予标签 | 监督学习决策是相互独立的,因此每个决策都有标签。 |
示例:国际象棋游戏 |
示例:对象识别 |
强化学习 | 监督学习 |
---|---|
强化学习就是按顺序做出决策。简单来说,我们可以说out取决于当前输入的状态,下一个输入取决于前一个输入的输出 | 在监督学习中,决定初始输入或开始时给出的输入 |
在强化中,学习决策是依赖的,因此我们给依赖决策序列赋予标签 | 监督学习决策是相互独立的,因此每个决策都有标签。 |
示例:国际象棋游戏 |
示例:对象识别 |
加固类型:有两种类型的加固:
正 -
正强化定义为由于特定行为而发生的事件增加了行为的强度和频率。换句话说,它对行为有积极影响。
强化学习的优点是:
最大化性能
持续改变很长一段时间
强化学习的缺点:
太多的加固可能导致状态过载,从而减少结果
否定 -
负强化被定义为强化行为,因为停止或避免消极情况。
强化学习的优点:
增加行为
提供蔑视最低性能标准
强化学习的缺点:
它只提供足以满足最小行为
强化学习的各种实际应用 -
RL可用于机器人技术,用于工业自动化。
RL可用于机器学习和数据处理
RL可用于创建培训系统,根据学生的要求提供定制指导和材料。
在以下情况下,RL可用于大型环境:
已知环境模型,但是没有分析解决方案;
仅给出了环境的仿真模型(基于仿真的优化主题); [6]
收集环境信息的唯一方法是与之交互。