GPT5.5 Instant:首个被标记「高能力」的即时模型

全文阅读
以下为编辑整理后的完整富文本内容。
GPT-5.5 Instant:首个被标记「高能力」的即时模型

今天凌晨,OpenAI 更新了 ChatGPT 的默认模型,从 GPT-5.3 Instant 升级到 GPT-5.5 Instant 。你没看错...ChatGPT 的默认模型,一直都是 5.3

ChatGPT 模型选择器,最新三档都是 5.5 了
这个模型也以 API 的方式向外提供,代号 chat-last :400k 上下文,$5/$30 每百万 token,与 GPT-5.5 默认版本保持一致

https://developers.openai.com/api/docs/models/chat-latest
按照官方说法, 这次升级做了三件事: 把幻觉砍了一半、把记忆接到了 Gmail、把安全评级拉到了前沿模型的标准
至于其他要点,我整理在了下方表格,扫一眼就行:
幻觉 高危领域(医疗、法律、金融)的幻觉率比 GPT-5.3 Instant 降了 52.5%
跑分 AIME 2025 数学测试从 65.4 跳到 81.2,MMMU-Pro 多模态推理从 69.2 到 76
记忆 能检索过往对话、上传文件和 Gmail 邮件来个性化回答,先开放给 Plus 和 Pro 用户
安全 第一个被 OpenAI 标记为「高能力」的 Instant 模型(网络安全 + 生化领域)
开发者 API 代号 chat-latest ,GPT-5.3 保留三个月后退役
另外就是:上一版 GPT-5.3 Instant 是 3 月 3 日发的,而 GPT-5.4 并没有出现在 ChatGPT 里面过
Focus幻觉减了多少
高危问答是这次升级改善最大的地方。OpenAI 的内部测试分了三个场景:日常事实类、用户标记过错误的对话、以及医疗法律金融类高风险问答
在高风险场景下,GPT-5.5 Instant 比 GPT-5.3 Instant 产生的错误声明少了 52.5% 。在用户标记的历史失败对话上,错误率降了 37.3%
OpenAI 同时发了 System Card,里面给了 HealthBench 的成绩:整体从 49.6 涨到 51.4,HealthBench Professional(面向临床场景)从 32.9 涨到 38.4。涨幅不算炸裂,但方向是对的
注:HealthBench 的评分做了长度调整。回答越长越容易得高分,OpenAI 这次对回答长度做了惩罚系数

System Card 幻觉测试结果:三个场景下 GPT-5.5 Instant 均优于前代
Focus跑分怎么样
Instant 系列一直被定位为「快而轻」的日常模型,跑分不是它的长项。但这一版的数字还是有些意思
AIME 2025 数学测试 81.2 ,上一版 65.4。这个 16 分的跳跃,放在 Instant 这个量级的模型上相当少见。MMMU-Pro 多模态推理 76,上一版 69.2。视觉推理、图表理解、科学题都有进步

还有一点就是回答变短了。OpenAI 说整体用词量少了约 30%,行数少了约 29%。表情符号也砍了,官方用词是「不再滥用 emoji」

5.3 vs 5.5 解题演示:新版直接给出准确答案,旧版走了弯路但最终也能检查出错误
With this update, the model's responses are tighter and more to-the-point without losing substance, while keeping the warmth and personality that makes ChatGPT enjoyable to use.
回答更紧凑、更直达要点,但没有丢掉让 ChatGPT 好用的那种温度和个性
Focus打通记忆、打通 Gmail
在 ChatGPT 当中,GPT-5.5 Instant 现在可以调用过去的对话记录、上传过的文件、以及你授权接入的 Gmail 邮件,来给出更贴合个人情况的回答。先开放给 Plus 和 Pro 的网页端用户,移动端和免费用户后续跟进
同步上线的还有一个叫 Memory Sources 的功能。每次 ChatGPT 用了你的记忆来回答问题,会在回答旁边显示它引用了哪些记忆来源。你可以删掉过时的,也可以纠正错误的
分享对话时,对方看不到你的记忆来源。不想被记住的对话,可以开「临时聊天」模式

Memory Sources 功能:显示 ChatGPT 引用了哪些记忆来源来个性化回答
Focus安全评级升了
这是第一个被 OpenAI 的 Preparedness Framework 标记为 「高能力」(High) 的 Instant 模型 。之前只有 GPT-5.5 Thinking 这种重量级推理模型才拿到过这个评级
高能力的意思是: 模型在网络安全和生化领域的能力,已经需要额外的安全护栏 。OpenAI 给它加了对应的防护措施:模型层面的拒绝训练、自动化的对话监控、以及账号级别的执行机制
网络安全方面,GPT-5.5 Instant 在 CTF(夺旗赛)挑战上的表现超过了 GPT-5.4 Thinking,但低于 GPT-5.5 Thinking。Cyber Range(模拟真实网络入侵)综合通过率 76.9%,和 GPT-5.3 Codex 持平
生化领域,在专家基准测试(TroubleshootingBench)上,GPT-5.5 Instant 的表现低于对比模型,也低于专家基线的 36.4%。但在标准化的多选题测试上已经接近甚至超过了共识专家水平

CTF 网络安全挑战:GPT-5.5 Instant 介于 GPT-5.4 Thinking 和 GPT-5.5 Thinking 之间
注:网络安全评测是在高推理档位下跑的,实际部署时 Instant 用的是低推理档位,能力会更低。
Focus退步的地方
System Card 里有几个数字值得单独拎出来看。
在「不安全内容」的基准测试中,GPT-5.5 Instant 相比 GPT-5.3 Instant 在两个类别上出现了统计显著的退步: 暴力血腥内容(gore) 从 0.867 降到 0.703, 违禁色情内容(sexual) 从 0.857 降到 0.806。数字越高越好,退步幅度不小
OpenAI 的解释是:对色情内容加了系统级防护来兜底,对疑似未成年用户加了额外的年龄保护。但模型本身的能力确实退步了
越狱测试(Jailbreak)也有退步。OpenAI 在 System Card 里直接说了:这些结果是「方向性的而非结论性的」,他们还在迭代评测方法本身
Extremism(极端主义)从 1.0 降到 0.943,Hate(仇恨言论)从 0.904 降到 0.827。虽然 OpenAI 说这些变化没有达到统计显著性,但趋势值得关注

System Card 越狱测试:GPT-5.5 Instant 相比前代有所退步
Focus价格和 API
GPT-5.5 Instant 在 API 中的代号是 chat-latest ,即日起替代 GPT-5.3 Instant 成为默认。定价和 GPT-5.5 Thinking 相同:每百万输入 token 5 美元,每百万输出 token 30 美元

横向对比一下 OpenAI 的其他模型价格:

Focus在哪能用
GPT-5.5 Instant 今天开始向所有 ChatGPT 用户滚动更新。免费用户也能用。付费用户可以在设置里手动切回 GPT-5.3 Instant,保留三个月
增强个性化(记忆 + Gmail)先给 Plus 和 Pro 的网页端用户,Free、Go、Business、Enterprise 后续几周内跟进。Memory Sources 功能对所有消费者套餐开放
→ 官方公告: openai.com/index/gpt-5-5-instant
→ System Card: deploymentsafety.openai.com/gpt-5-5-instant
→ API 文档: developers.openai.com/api/docs/models/gpt-5.5
来源:https://mp.weixin.qq.com/s/J2iYjj9j2qadDVgZ7lBA0w

