强化学习

Q学习 Qlearning怎么用于资产配置？

Q学习国庆闲暇之余，买了一本书来看，里面提到了怎么用Qlearning的强化学习方法来优化资产配置。这里给大家分享一下。1、什么是Qlearning？这里我用自己的理解和语言

7个月前

930

什么是马尔可夫决策过程

“马尔可夫”通常意味着在当前状态下，未来和过去是独立的。

生活百科 # 强化学习 # 折扣因子 # 概率模型

7个月前

790

研究人员提出因果贝尔曼方程，在线上学习算法中可得到最优智能体

近日，美国哥伦比亚大学李明轩博士和团队提出一种因果贝尔曼方程，它能使用可能包含有混杂变量的观测数据计算出最优价值函数的理论上界。而如果使用这一理论上界设计奖励函数的话

生活百科 # 因果贝尔曼方程 # 在线学习算法 # 奖励函数

7个月前

930

强化学习落地物理要避坑！ “体验式学习”成破解复杂难题新方向

在海德堡获奖者论坛上，人工智能与物理科学的交汇引发关注。DeepMind强化学习专家David Silver提出：“AI要像婴儿一样，通过“体验”，主动学习。

生活百科 # 人工智能 # 体验式学习 # 强化学习

7个月前

890

多智能体、上下文工程与强化学习的融合实践

强化学习“凌晨三点被电话叫醒，只因数据库告警像雪花一样刷屏，但没有一个告警告诉你真正问题在哪。 ”——如果你干过运维，这句话比咖啡还提神。别再靠堆人头救火。

生活百科 # AI # 上下文工程 # 多智能体

7个月前

970

你的车正在偷偷学开车，强化学习让它比你更老练！

强化学习年底坐进特斯拉，你可能会觉得这车有了灵性。马斯克最近放话，说他们的自动驾驶要让人产生这种感觉。可你有没有想过，你每天开的车，其实正在偷偷学艺？你在市区里左躲右闪，在高速上风驰电掣

生活百科 # 强化学习 # 技术发展 # 智能汽车

7个月前

870

一文搞懂所谓Al机器学习——监督学习，无监督学习和强化学习

我们都在说Al模型，怎么好怎么好，有人说的好:人工智能是先有人工才有智能。模型需要喂给他知识才会变得强大。想象一下，我们有一个非常非常聪明，但一开始什么都不会的“机器人小宝宝”

生活百科 # 人工智能 # 强化学习 # 无监督学习

7个月前

1010

【CMU博士论文】面向目标的自主智能体推理

在构建多模态自主智能体时，一个根本性的挑战在于实现目标导向的推理。

生活百科 # 强化学习 # 推理增强 # 目标导向

7个月前

840

Q学习 Qlearning怎么用于资产配置？

什么是马尔可夫决策过程

研究人员提出因果贝尔曼方程，在线上学习算法中可得到最优智能体

强化学习落地物理要避坑！ “体验式学习”成破解复杂难题新方向

多智能体、上下文工程与强化学习的融合实践

你的车正在偷偷学开车，强化学习让它比你更老练！

一文搞懂所谓Al机器学习——监督学习，无监督学习和强化学习

【CMU博士论文】面向目标的自主智能体推理

搜索文章

热门文章