研究人员提出因果贝尔曼方程,在线上学习算法中可得到最优智能体 近日,美国哥伦比亚大学李明轩博士和团队提出一种因果贝尔曼方程,它能使用可能包含有混杂变量的观测数据计算出最优价值函数的理论上界。而如果使用这一理论上界设计奖励函数的话 生活百科# 因果贝尔曼方程# 在线学习算法# 奖励函数 13小时前010