05.25
reinforcement learning
无监督的学习,基于智能体(Agent),从外界环境中通过交互不断学习,自我强化
State, Reward, Action
强化学习
-
智能体的决策会影响环境
-
长时间延时反馈
马尔科夫决策过程
05.25
reinforcement learning
无监督的学习,基于智能体(Agent),从外界环境中通过交互不断学习,自我强化
State, Reward, Action
强化学习
智能体的决策会影响环境
长时间延时反馈
马尔科夫决策过程