因果贝尔曼方程

共 1 篇文章

排序

近日，美国哥伦比亚大学李明轩博士和团队提出一种因果贝尔曼方程，它能使用可能包含有混杂变量的观测数据计算出最优价值函数的理论上界。而如果使用这一理论上界设计奖励函数的话

7个月前

930