AI工具Toola编辑部2026年5月6日

GPT5.5 Instant：首个被标记「高能力」的即时模型

AI精选AI模型AI工具AI编程AI Agent

全文阅读

以下为编辑整理后的完整富文本内容。

查看原文

GPT-5.5 Instant：首个被标记「高能力」的即时模型

今天凌晨，OpenAI 更新了 ChatGPT 的默认模型，从 GPT-5.3 Instant 升级到 GPT-5.5 Instant 。你没看错...ChatGPT 的默认模型，一直都是 5.3

ChatGPT 模型选择器，最新三档都是 5.5 了

这个模型也以 API 的方式向外提供，代号 chat-last ：400k 上下文，$5/$30 每百万 token，与 GPT-5.5 默认版本保持一致

https://developers.openai.com/api/docs/models/chat-latest

按照官方说法，这次升级做了三件事：把幻觉砍了一半、把记忆接到了 Gmail、把安全评级拉到了前沿模型的标准

至于其他要点，我整理在了下方表格，扫一眼就行：

幻觉高危领域（医疗、法律、金融）的幻觉率比 GPT-5.3 Instant 降了 52.5%

跑分 AIME 2025 数学测试从 65.4 跳到 81.2，MMMU-Pro 多模态推理从 69.2 到 76

记忆能检索过往对话、上传文件和 Gmail 邮件来个性化回答，先开放给 Plus 和 Pro 用户

安全第一个被 OpenAI 标记为「高能力」的 Instant 模型（网络安全 + 生化领域）

开发者 API 代号 chat-latest ，GPT-5.3 保留三个月后退役

另外就是：上一版 GPT-5.3 Instant 是 3 月 3 日发的，而 GPT-5.4 并没有出现在 ChatGPT 里面过

Focus幻觉减了多少

高危问答是这次升级改善最大的地方。OpenAI 的内部测试分了三个场景：日常事实类、用户标记过错误的对话、以及医疗法律金融类高风险问答

在高风险场景下，GPT-5.5 Instant 比 GPT-5.3 Instant 产生的错误声明少了 52.5% 。在用户标记的历史失败对话上，错误率降了 37.3%

OpenAI 同时发了 System Card，里面给了 HealthBench 的成绩：整体从 49.6 涨到 51.4，HealthBench Professional（面向临床场景）从 32.9 涨到 38.4。涨幅不算炸裂，但方向是对的

注：HealthBench 的评分做了长度调整。回答越长越容易得高分，OpenAI 这次对回答长度做了惩罚系数

System Card 幻觉测试结果：三个场景下 GPT-5.5 Instant 均优于前代

Focus跑分怎么样

Instant 系列一直被定位为「快而轻」的日常模型，跑分不是它的长项。但这一版的数字还是有些意思

AIME 2025 数学测试 81.2 ，上一版 65.4。这个 16 分的跳跃，放在 Instant 这个量级的模型上相当少见。MMMU-Pro 多模态推理 76，上一版 69.2。视觉推理、图表理解、科学题都有进步

还有一点就是回答变短了。OpenAI 说整体用词量少了约 30%，行数少了约 29%。表情符号也砍了，官方用词是「不再滥用 emoji」

5.3 vs 5.5 解题演示：新版直接给出准确答案，旧版走了弯路但最终也能检查出错误

With this update, the model's responses are tighter and more to-the-point without losing substance, while keeping the warmth and personality that makes ChatGPT enjoyable to use.

回答更紧凑、更直达要点，但没有丢掉让 ChatGPT 好用的那种温度和个性

Focus打通记忆、打通 Gmail

在 ChatGPT 当中，GPT-5.5 Instant 现在可以调用过去的对话记录、上传过的文件、以及你授权接入的 Gmail 邮件，来给出更贴合个人情况的回答。先开放给 Plus 和 Pro 的网页端用户，移动端和免费用户后续跟进

同步上线的还有一个叫 Memory Sources 的功能。每次 ChatGPT 用了你的记忆来回答问题，会在回答旁边显示它引用了哪些记忆来源。你可以删掉过时的，也可以纠正错误的

分享对话时，对方看不到你的记忆来源。不想被记住的对话，可以开「临时聊天」模式

Memory Sources 功能：显示 ChatGPT 引用了哪些记忆来源来个性化回答

Focus安全评级升了

这是第一个被 OpenAI 的 Preparedness Framework 标记为 「高能力」（High） 的 Instant 模型。之前只有 GPT-5.5 Thinking 这种重量级推理模型才拿到过这个评级

高能力的意思是：模型在网络安全和生化领域的能力，已经需要额外的安全护栏。OpenAI 给它加了对应的防护措施：模型层面的拒绝训练、自动化的对话监控、以及账号级别的执行机制

网络安全方面，GPT-5.5 Instant 在 CTF（夺旗赛）挑战上的表现超过了 GPT-5.4 Thinking，但低于 GPT-5.5 Thinking。Cyber Range（模拟真实网络入侵）综合通过率 76.9%，和 GPT-5.3 Codex 持平

生化领域，在专家基准测试（TroubleshootingBench）上，GPT-5.5 Instant 的表现低于对比模型，也低于专家基线的 36.4%。但在标准化的多选题测试上已经接近甚至超过了共识专家水平

CTF 网络安全挑战：GPT-5.5 Instant 介于 GPT-5.4 Thinking 和 GPT-5.5 Thinking 之间

注：网络安全评测是在高推理档位下跑的，实际部署时 Instant 用的是低推理档位，能力会更低。

Focus退步的地方

System Card 里有几个数字值得单独拎出来看。

在「不安全内容」的基准测试中，GPT-5.5 Instant 相比 GPT-5.3 Instant 在两个类别上出现了统计显著的退步： 暴力血腥内容（gore） 从 0.867 降到 0.703， 违禁色情内容（sexual） 从 0.857 降到 0.806。数字越高越好，退步幅度不小

OpenAI 的解释是：对色情内容加了系统级防护来兜底，对疑似未成年用户加了额外的年龄保护。但模型本身的能力确实退步了

越狱测试（Jailbreak）也有退步。OpenAI 在 System Card 里直接说了：这些结果是「方向性的而非结论性的」，他们还在迭代评测方法本身

Extremism（极端主义）从 1.0 降到 0.943，Hate（仇恨言论）从 0.904 降到 0.827。虽然 OpenAI 说这些变化没有达到统计显著性，但趋势值得关注

System Card 越狱测试：GPT-5.5 Instant 相比前代有所退步

Focus价格和 API

GPT-5.5 Instant 在 API 中的代号是 chat-latest ，即日起替代 GPT-5.3 Instant 成为默认。定价和 GPT-5.5 Thinking 相同：每百万输入 token 5 美元，每百万输出 token 30 美元

横向对比一下 OpenAI 的其他模型价格：

Focus在哪能用

GPT-5.5 Instant 今天开始向所有 ChatGPT 用户滚动更新。免费用户也能用。付费用户可以在设置里手动切回 GPT-5.3 Instant，保留三个月

增强个性化（记忆 + Gmail）先给 Plus 和 Pro 的网页端用户，Free、Go、Business、Enterprise 后续几周内跟进。Memory Sources 功能对所有消费者套餐开放

→ 官方公告： openai.com/index/gpt-5-5-instant

→ System Card： deploymentsafety.openai.com/gpt-5-5-instant

→ API 文档： developers.openai.com/api/docs/models/gpt-5.5

来源：https://mp.weixin.qq.com/s/J2iYjj9j2qadDVgZ7lBA0w

阅读原文