当大模型把题库“刷爆”,红杉中国推出一套全新AI基准测试 类似手机时代厂商发布新机需要“跑个分”,如今大模型厂商发布新产品后也会通过基准测试(Benchmark)跑分对比 生活百科# AI基准测试# xbench# 智能体评测 2个月前0310