5月15日|智能体的自动化评估与优化,Agent-Eval-Refine

智能体价值评估_智能体Agent自动化评估与优化_多模态语言模型VLM评估智能体性能

报告主题:智能体Agent的自动化评估与优化

报告日期:5月15日(周三)10:30-11:30

报告要点:

智能体价值评估_多模态语言模型VLM评估智能体性能_智能体Agent自动化评估与优化

智能体正在快速发展,然而其性能评估方法仍然较为原始——大量依赖人工标注,且难以准确反映其在现实应用中的性能。因此,我们需要开发出更具可扩展性、并能真实反映智能体性能的评估工具。

在这份工作里,我们展示了利用多模态语言模型(VLM)评估智能体性能的可行性及其相对传统方法的优点。基于此方法,我们进一步展示了如何利用该监督信号在训练以及推理中显著提升智能体的性能(30%~75%)

报告中,我会探讨这份工作的动机,方法,结果,以及诸多未来方向。论文由 UC 和UMich的Jiayi Pan, Yichi Zhang, , Yifei Zhou, , Alane Suhr 合作完成,可见于

报告嘉宾:

潘家怡,加州大学伯克利分校NLP Group的博士生,师从Alane Suhr;本科学位来自上海交通大学和密西根大学。他的研究兴趣包括多模态语言模型和具身智能。主页: www..me

智能体价值评估_智能体Agent自动化评估与优化_多模态语言模型VLM评估智能体性能

扫码报名

© 版权声明

相关文章

暂无评论

none
暂无评论...