强化学习算法的元学习框架-科技信息-18百科

强化学习算法的元学习框架

2022-12-19 科技信息 By：佚名

最佳答案当前的强化学习算法使用规则集进行工作，根据该规则集，通过观察当前环境状态来不断更新代理的参数。提高这些算法效率的一种可能方法是使用自动从可用数据中发现更新规则，同时使算法适应特定的环境条件。这个研究方向仍然提出了很多挑战。在arXiv.org上发表的最新论文中，作者提议创建元学习平台，...

当前的强化学习算法使用规则集进行工作，根据该规则集，通过观察当前环境状态来不断更新代理的参数。提高这些算法效率的一种可能方法是使用自动从可用数据中发现更新规则，同时使算法适应特定的环境条件。这个研究方向仍然提出了很多挑战。

在arXiv.org上发表的最新论文中，作者提议创建元学习平台，该平台可以发现整个更新规则，包括预测目标(或值函数)以及通过与一组环境交互从中学习的方法。在他们的实验中，研究人员使用一组三个不同的元训练环境来尝试元学习完整的强化学习更新规则，从而证明了这种方法的可行性以及其自动化和加速新机器学习算法发现的潜力。

本文首次尝试通过共同发现“预测内容”和“如何进行引导”来元学习完整的RL更新规则，从而取代了现有的RL概念(例如价值函数和TD学习)。一小组玩具环境的结果表明，发现的LPG可以在预测中保留丰富的信息，这对于有效的引导非常重要。我们认为，这只是完全数据驱动的RL算法发现的开始;从我们的程序生成环境到新的高级体系结构和替代的产生经验的方法，有许多很有希望的方向来扩展我们的工作。从玩具领域到Atari游戏的彻底概括表明，从与环境的互动中发现有效的RL算法可能是可行的，

上一篇：吃完饭胃就疼是什么病（吃完饭胃就疼是什么原因）

下一篇：3d眩晕怎么有效缓解（3d眩晕怎么缓解）

强化学习算法的元学习框架

d1005（关于d1005的介绍）

新东阳肉松（关于新东阳肉松的基本详情介绍）

hd4000相当于什么显卡（hd4000显卡相当于独显什么水平）

朱越是如何沦陷的？黑鸡和白暨豚是朱越生的还是造的？为什么是平治？

公共汽车简笔画 彩色（公共汽车简笔画）

笔记本无线上网软件（笔记本无线上网）

d1005（关于d1005的介绍）

新东阳肉松（关于新东阳肉松的基本详情介绍）

hd4000相当于什么显卡（hd4000显卡相当于独显什么水平）

朱越是如何沦陷的？黑鸡和白暨豚是朱越生的还是造的？为什么是平治？

公共汽车简笔画 彩色（公共汽车简笔画）

笔记本无线上网软件（笔记本无线上网）

广东工程职业技术学院和广东工程技术职业学院

音乐鉴赏课论文1000字（音乐鉴赏课论文3000）

洛阳58同城（洛阳58）

齐鲁晚报简介（齐鲁晚报品牌介绍）

公共汽车简笔画彩色（公共汽车简笔画）

公共汽车简笔画彩色（公共汽车简笔画）