Gemini 2.5 Google推出Gemini 2.5 Deep Think模型 性能超越OpenAI o3和Grok 4

今天,宣布在 应用程序中面向 AI Ultra 订阅用户推出 2.5 Deep Think 模型。该新模型在多个关键基准测试中超越了 的 o3 模型和xAI 的 Gork 4模型。

Google Gemini 2.5 Deep Think model_Gemini 2.5_Google AI Ultra subscription Gemini 2.5 Deep Think

早在 5 月份的 I/O 2025 大会上,就首次发布了 2.5 Pro 深度思考模式,该模式采用了新的研究技术,能够在做出响应之前考虑多种假设。今天推出的是一个更新的深度思考模型,其中包含基于早期可靠测试人员的反馈和最新研究突破的改进。声称,更新后的深度思考模型比 I/O 大会上首次发布的版本有了显著改进。

还透露,这款新的 Deep Think 模型是最近在今年国际数学奥林匹克 (IMO) 比赛中获得金牌的模型的变种。为了使其适合日常使用,对其进行了速度提升,因此在 2025 年 IMO 基准测试中,其性能仅达到铜牌级别。

Google Gemini 2.5 Deep Think model_Google AI Ultra subscription Gemini 2.5 Deep Think_Gemini 2.5

如上图基准测试所示, 2.5 Deep Think 在 V6、’s Last Exam、IMO 2025 和 AIME 2025 中均取得了优异的表现。

AI Ultra 订阅用户现在可以在 应用中使用 Deep Think,每天使用固定数量的提示,方法是使用选择 2.5 Pro 型号时提示栏中出现的“Deep Think”选项。 指出,Deep Think 可自动与代码执行和 搜索等工具配合使用。 还计划在未来几周内通过 API 向一组值得信赖的开发者发布带工具和不带工具的 Deep Think。

现在最大的问题是即将推出的 GPT-5模型是否会在关键基准测试结果中反超 2.5 Deep Think。

© 版权声明

相关文章

暂无评论

none
暂无评论...