logoChatGPT国内镜像中文交流-IntelliRealm
首页 留言 登录
OpenAI发布了o3和o4-mini “会思考的模型”支持视觉推理

4 月 17 日凌晨,OpenAI 带来了两个新模型。一个是 o3 完全体,另一个是 o3-mini 的下一代 o4-mini。

两个模型均属于 o 系列推理模型,不同于主打对话自然性的 GPT 系列,它们的目标是“会思考的模型”。

备受关注的 o3 完全体主打性能强悍,不负众望地在多个基准测试上追平/超越了竞争对手的最强模型,而 o4-mini 则接过了“性价比最高”的头衔。

最引人注目的是,它们首次具备了真正的视觉推理能力:不仅能看图识图,更能看图思考。上传一张板书、图表、手写草图或者截图,模型就能基于图像展开分析、生成代码,甚至动手操作图像本身。

以往的语言模型虽然支持上传图片,但更多是识别图像,而不是推理。o3 和 o4-mini 打破了这一限制,它们能够将图片信息真正整合进推理链条中,成为模型决策过程的一部分。

在直播演示中,OpenAI 在 X 上截取了一张有关“图像到 ASCII 风格转换”的推文图片,直接丢给 o3。

经过推理后,o3 模型询问是否要按截图中的需求生成代码,在获得后续提示后,它成功生成了可运行代码,能够实时将摄像头的视频流转化成 ASCII 风格。

“它们不只是看图,而是用图像来思考。”OpenAI 表示。

目前,o3 和 o4-mini 已向 ChatGPT Plus、Pro、Team 用户开放,并替代旧版 o1 和 o3-mini。企业和教育版用户将在一周后将获得接入权限。

免费用户可以通过 ChatGPT 的“思考”功能体验 o4-mini。API 开发者可以通过 Chat Completions API 和 Responses API 使用新模型和新能力。

在定价方面,o3 的每百万输入 token 为 10 美元,每百万输出 token 为 40 美元。而 o4-mini 的定价仅有其十分之一左右,每百万输入 token 为 1.1 美元,每百万输出 token 为 4.4 美元。

据 OpenAI 介绍,o3 是其最强大的通用推理模型,特别擅长处理编程、数学、科学和图像分析等任务。与上一代 o1 模型相比,它在处理商业咨询、编程创意等真实世界复杂任务时,重大错误率降低了 20%。

而 o4-mini 则是一款轻量级模型,强调高性价比和高吞吐量,适用于更频繁、更成本敏感的应用场景。

在基准测试成绩方面,o3 和 o4-mini 在所有测试中都大幅超越了上一代模型 o1 和 o3-mini。o4-mini 甚至在 AIME 2025 数学竞赛中(启用 Python 工具后)达到了 99.5% 的惊人成绩,几乎封顶该测试。

相比竞争对手的最强模型 Gemini 2.5 Pro 和 Claude 3.7 Sonnet,o3 和 o4-mini 与它们不分伯仲,在不同的测试中互有胜负。

接下来,OpenAI 计划继续推动“推理模型与对话模型”的融合,即结合 GPT 系列的自然语言交互能力和 o 系列的工具使用能力。

这或许意味着传闻中的 GPT-5 离我们不远了。

上一篇:GPT-4.5 Turbo 可能已经秘密发布 许多 ChatGPT Plus 用户都收到了这样的回复
评论留言 (0条)