策略梯度可以对无限状态建模吗

timespaceckn
哈阿乌 09月17日 字数 77

就是没有完整的episode  只截取其中的一段  可以吗

AI 人工智能
6 个回复
ChesterW
强化哥 09月17日

折扣率就是针对时间步太长导致值函数不收敛而设计的

【 在 timespaceckn 的大作中提到: 】

: 就是没有完整的episode  只截取其中的一段  可以吗

timespaceckn
哈阿乌 09月17日

这个我知道  但按你意思那就没有有限无限状态的差别了,比如蒙特卡洛也可以用于无限状态了

【 在 ChesterW 的大作中提到: 】

: 折扣率就是针对时间步太长导致值函数不收敛而设计的

: 【 在 timespaceckn 的大作中提到: 】

: : 就是没有完整的episode  只截取其中的一段  可以吗

: ....................

ChesterW
强化哥 09月17日

只要回报函数不稀疏的情况下是无所谓的

另外,你总是需要设置时间步上限的

【 在 timespaceckn 的大作中提到: 】

: 这个我知道  但按你意思那就没有有限无限状态的差别了,比如蒙特卡洛也可以用于无限状态了

timespaceckn
哈阿乌 09月17日

总要设上限这个倒是

回报函数稀疏是什么意思?是说有很多状态下回报0?

【 在 ChesterW 的大作中提到: 】

: 只要回报函数不稀疏的情况下是无所谓的

: 另外,你总是需要设置时间步上限的

: 【 在 timespaceckn 的大作中提到: 】

: ....................

ChesterW
强化哥 09月18日

是哦

【 在 timespaceckn 的大作中提到: 】

: 总要设上限这个倒是

: 回报函数稀疏是什么意思?是说有很多状态下回报0?

Joseph2012
业余玩家 09月18日

完全可以。

利用了bootstrap的policy gradient了解一下。但这个算法也存在问题,就收敛性,需

要仔细考虑,或者实验。

就是楼上兄台说的sparse reward模型也能用。片段取样会包含terminal state,

reward会引入,从而改进policy。问题是收敛会慢一些。

【 在 timespaceckn (哈阿乌) 的大作中提到: 】

: 就是没有完整的episode  只截取其中的一段  可以吗