AI学习笔记强化学习的相关内容

AI学习笔记——强化学习之Model-Free Prediction--解决未知环境下的预测问题

前面关于强化学习的文章中介绍了MDP，动态规划的方法对MDP问题的V函数进行评估和求最优策略。然而现实问题中，往往很多时候环境是未知的。那么这篇文章就介绍一下在未知环境下用Model Free的方法预测MDP。 1. Monte-Carlo （蒙特卡洛）策略估计 Monte-Carlo(MC)方法广...

AI学习笔记——强化学习之动态规划(Dynamic Programming)解决MDP(2)

求解最优MDP实际上就是找到最佳策略(Policy)π来最大化来最大化V函数(Value Function)。公式一 1. 策略估算(Policy Evaluation) 在MDP问题中，如何评估一个策略的好坏呢？那我们就计算这个策略的V函数（值函数），这里我们又要用到之前文章中提到的Bellma...

AI情绪鼓励师模型微调实操教学

1 课时 |

135 人已学 |

加入学习

跨越N次元一键变身AI漫画人

1 课时 |

277 人已学 |

加入学习

AI人像动漫画实操教学

1 课时 |

205 人已学 |

加入学习

AI学习笔记——强化学习之动态规划(Dynamic Programming)解决MDP(1)

我们介绍过MDP(Markov Decision Processes马可夫决策过程)以及什么是最优MDP，甚至从强化学习的角度介绍了DQN，Q-learning, Sarsa 等求解最优MDP方法，但是要深入理解强化学习，必须了解背后支持的理论基础。动态规划(Dynamic programming)...

AI学习笔记之——强化学习(Reinforcement Learning, RL)

诚如在之前文章提到的，机器学习按照从那里学的角度可以分为：监督学习，无监督学习和强化学习三大类。之前的文章大多数都是介绍的前两类，而第三类强化学习（RL）确是最接近我们所想象的人工智能。强化学习简介强化学习（RL）就是在环境中与环境的互动不停地学习的，非常像人类学习走路，学习骑车，学习游泳等等。...

共有4条

< 1 >

跳转至： GO

更新时间 2023-05-10 11:04:29

本页面内关键词为智能算法引擎基于机器学习所生成，如有任何问题，可在页面下方点击"联系我们"与我们沟通。

产品推荐

社区圈子

阿里云机器学习平台PAI

阿里云机器学习PAI（Platform of Artificial Intelligence）面向企业及开发者，提供轻量化、高性价比的云原生机器学习平台，涵盖PAI-iTAG智能标注平台、PAI-Designer（原Studio）可视化建模平台、PAI-DSW云原生交互式建模平台、PAI-DLC云原生AI基础平台、PAI-EAS云原生弹性推理服务平台，支持千亿特征、万亿样本规模加速训练，百余落地场景，全面提升工程效率。

2435+人已加入

加入