重庆分公司

咨询热线：

028-86922220

×

01

关于我们

02

服务项目

高端网站建设

网络营销服务

电商网站定制

生物医药网站建设

外贸网站建设

教育培训网站建设

03

小程序开发

小程序开发

04

案例展示

网站建设案例

小程序案例

电商平台案例

系统平台案例

05

建站动态

06

联系我们

地址：成都市太升南路288号锦天国际A幢1002号

电话：028-86922220

028-86922220

重庆分公司，新征程启航

为企业提供网站建设、域名注册、服务器等服务

DQN与PG多角度实例比较分析

今天小编给大家分享一下DQN与PG多角度实例比较分析的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。

创新互联网站建设提供从项目策划、软件开发，软件安全维护、网站优化(SEO)、网站分析、效果评估等整套的建站服务，主营业务为成都网站制作、成都网站建设、外贸营销网站建设，成都app软件开发公司以传统方式定制建设网站，并提供域名空间备案等一条龙服务，秉承以专业、用心的态度为用户提供真诚的服务。创新互联深信只要达到每一位用户的要求，就会得到认可，从而选择与我们长期合作。这样，我们也可以走得更远！

DQN与PG多角度实例比较分析

首先是原理上的对比，强化学习研究的目标是训练出一个对应于具体任务的好模型，这两个训练策略的方法是不同的。DQN基于值的方法，简单说就是先学出个值函数 ,然后通过值函数确定策略。而PG基于策略的方法则是，直接通过一个目标函数去训练出一个策略

接下来是网络模型上的不同，在MATLAB中DQN方法需要的模型是这样的

DQN与PG多角度实例比较分析

每一步的state和action一起作为输入进入网络，最后输出的是下一步action的值，和模型接受的动作对应，比如迷宫环境中的表示向上的1，rlDQNAgent模型把1施加给环境

再看PG方法的模型

DQN与PG多角度实例比较分析

只要state作为输入，经过网络的运算后输出的是下一步的action，和模型的actionInfo对应，rlPGAgent分析后取出需要执行的动作再和环境交互

最后看的是训练过程，同样的简单平衡维持环境，DQN训练时reward变化是这样的

DQN与PG多角度实例比较分析

而PG训练需要更多次

DQN与PG多角度实例比较分析

这个对比只是直观指出不同，可能PG方法并不适合这样的环境，这里主要记录的是两个方法的输入输出，在下次建立模型的时候可以参考：

DQN的输入是state和action一起，输出对应的是action的确切值

PG的输入是state，输出对应的是env的ActionInfo

以上就是“DQN与PG多角度实例比较分析”这篇文章的所有内容，感谢各位的阅读！相信大家阅读完这篇文章都有很大的收获，小编每天都会为大家更新不同的知识，如果还想学习更多的知识，请关注创新互联行业资讯频道。

分享题目：DQN与PG多角度实例比较分析
分享URL：http://cqcxhl.com/article/ieegpd.html

其他资讯

分享至：

公司简介发展历程

高端网站建设小程序开发 APP开发网络营销

网站建设网站设计网站制作小程序

公司地址人才招聘

成都重庆



电话：028-86922220



地址：成都市太升南路288号锦天国际A幢1002号



电话：028-86922220



地址：重庆市南岸区弹子石腾龙大道58号2栋21-6

版权所有：成都创新互联科技有限公司重庆分公司渝ICP备2021005571号-4

服务热线：028-86922220