新V观海外:全球AI智能体正进入黄金发展期

AI智能体测试基准MLE-Bench_智能体函数调用能力评估_智能体基准测试

陈沛/文 近期接连发布了两项与AI智能体(Agent)有关的研究成果,分别是智能体的测试基准MLE-Bench和多智能体协调框架Swarm。

的发布引发了很多关注和讨论,也将人们的视线又拉回到了能够自行分析、规划、决策、执行的智能体上。

实际上,整个AI应用领域今年在智能体赛道已经取得了很多进展,特别是模型的函数调用能力和智能体框架已经日趋成熟。

其中,模型的函数调用能力对于智能体自行分析问题并执行实际任务至关重要,能帮助智能体准确完成发送邮件、提交文档、比价下单等实际任务。

对此美国加州大学伯克利分校今年提出了BFCL测试排行榜,从多个维度评估模型的函数调用能力,包括 Turn和Multi Turn、Non-Live和Live、AST总结和Exec总结、幻觉评估、模型成本和延迟等。

该排行榜的测试难度比较大,例如的GPT-4系列模型、的-3.5系列模型、谷歌的-1.5系列模型的测试结果最高只有50多分。

不过,美国AI公司不久前刚刚宣布其新发布的 X 004模型取得了78分的高分。重点提升了新模型调用外部数据库和应用程序并采取行动的能力、获取SKU数据并与内置RAG自动集成的能力、代码生成与部署能力、结构化输出和执行能力(包括邮件、CRM、XML、日志等),从而显著增强了函数调用能力。

虽然这一初步结果还没有正式进入BFCL测试排行榜单,但是已经表明,要进一步提高函数调用能力不仅涉及模型本身,还要求对于实际应用开发和真实业务场景的理解有者更深刻的理解。

与此同时,智能体的各类自动化框架此前已经有了一些早期的实践,主要聚焦帮助模型理解环境、规划推理、执行任务的工具框架和协调流程。

例如在这次的MLE-Bench中,为了评估智能体在机器学习工程任务上的能力,便重点分析了由开发的AIDE框架、在项目中提出的MLAB框架以及由多家机构开发的框架。

随着函数调用能力和智能体自动化框架逐步推进,今年来已经有各个细分领域的智能体公司竞相涌现。

投资过很多AI公司的老牌投资机构 不久前专门盘点了各个垂直领域和职能方向的智能体,都已经出现了有代表性的公司。

例如客服领域的、销售领域的11x、营销领域的、招聘领域的、法务领域的、运营领域的、合规领域的Norm Ai、税务领域的以及房产领域的。

在实际中,相关领域和其它行业的AI智能体还有更多,正出现百花齐放的态势。在这波AI浪潮下,AI应用并不会局限于聊天机器人,而智能体可能才是更合适的产品形态和付费模式。

© 版权声明

相关文章

暂无评论

none
暂无评论...