首页意见反馈 AI学术青年与开发者社区

...

深度理解强化学习

开课时间：4月25号正式开课

开课时长：每周三定时更新

机器学习基础入门

会员免费

现价：￥399.00

原价：￥499.00

课程详情可以咨询慕慕

开通会员，立省399元立即开通

券当前课程，会员领券立减30元>>

我要报名课程咨询

排序：最新笔记
- 最新笔记
- 点赞最多

CliffWalking environment

This gridworld example compares Sarsa and Qlearning, highlighting the difference between on-policy (Sarsa) and off-policy (Qlearning) methods.

task 4*12矩阵网格

Estimated Optimal Policy (UP = 0, RIGHT = 1, DOWN = 2, LEFT = 3, N/A = -1):
[[ 0  3  1  1  1  1  1  1  1  2  2  1]
 [ 1  1  0  3  2  2  1  3  2  2  2  2]
 [ 1  1  1  1  1  1  1  1  1  1  1  2]
 [ 0 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1  0]]

The agent has 4 potential actions:

UP = 0
RIGHT = 1
DOWN = 2
LEFT = 3

先计算随机值函数

Sarsa算法参数num_episodes: This is the number of episodes that are generated through agent-environment interaction.

先计算之前Q表S0 A0

更新Q表一个队列记录瞬时分数，一个记录平均分，用来作分析

对于episode 进行迭代，每100次迭代，打印结果，最后用平均reward 计算是否收敛，

[展开全文]

PoleToWinF1 · 2019-06-30 · Q-learning(Coding exercise) 0

授课教师

暂无教师

微信扫码分享课程

学员动态

小白U1678879314 加入课程深度理解强化学习

小白U1694479422 开始学习课时 Coding exercise

小白U1694479422 开始学习课时环境搭建实操

小白U1694479422 开始学习课时马尔科夫奖赏过程

小白U1694479422 开始学习课时 Deep Q network

深度理解强化学习

授课教师

最新学员

学员动态