AI产品量子位 - 资讯2026年4月29日

不卷参数卷架构，这个开源模型把图像理解和生成统一了

AI产品AI模型AI工具AI AgentAI搜索

Toola 摘要

不卷参数卷架构，这个开源模型把图像理解和生成统一了 henry 2026-04-29 12:27:03 来源：量子位全网开源，即刻可用 henry 发自凹非寺量子位 | 公众号 QbitAI 这两天打开朋友圈，10条里有7条都是GPT-Image-2生的图。中文海报、复古杂志封面、直播画面、社交截图、连高考试卷都能照着出一张几乎以假乱真的。对此，大家伙的反应也都出奇的一致—— 专业设计师们完了，我又能行了！但实际上上手你就...

本地阅读

以下内容来自新闻源 RSS，仅用于快速了解重点。

查看原文

不卷参数卷架构，这个开源模型把图像理解和生成统一了 – 量子位首页资讯智能车智库活动 MEET大会 AIGC 扫码关注量子位 --> 不卷参数卷架构，这个开源模型把图像理解和生成统一了 henry 2026-04-29 12:27:03 来源：量子位全网开源，即刻可用 henry 发自凹非寺量子位 | 公众号 QbitAI 这两天打开朋友圈，10条里有7条都是GPT-Image-2生的图。

中文海报、复古杂志封面、直播画面、社交截图、连高考试卷都能照着出一张几乎以假乱真的。对此，大家伙的反应也都出奇的一致—— 专业设计师们完了，我又能行了！但实际上上手你就会有同感：免费用户一天几张，抽卡次数有限，遇到稍微严肃点的活，额度马上到顶，常常是活没干完，次数没了。

针对这一空档，商汤刚刚开源了一个全新架构的理解生成统一模型 SenseNova-U1 ，虽然小尺寸版本只有8B，却能复刻不少GPT-Image-2的拿手绝活。比如，我们拿它做一张量子位的招聘海报：文字、版式、配色，挑不出毛病。太阳系图解，八大行星各自的轨道、属性、图文介绍一应俱全，看着挺像那么回事。

画个钢铁侠，模型也能自动从轮廓、铺色、细节、质感、氛围等多个阶段拆解完整的绘画流程。来个马斯克太空集群的信息图也审美在线。可以说，信息图（InfoGraph）、文字密集排版、图文交错—— 这几个曾经被公认是AI生图最难啃的硬骨头，U1能跟GPT-Image-2挤进一桌。在具体的图像理解与生成的多项指标上，SenseNova-U1也是登顶开源模型的榜首。

在推理响应速度上也具备相当的优势，逼近主流商用闭源模型。这是怎么做到的，咱往下看。连续性图文创作，这次是原生的先说U1这次最有意思的能力，连续性图文创作。所谓连续性图文创作，就是文字和图片在一段输出里自然交叠，而不是文字归文字、图片归图片。这听起来很简单，但实际上很难。

因为文字保留语义、图片保留像素细节，这两件事在传统架构里几乎是天敌—— 保了语义就丢了像素，保了像素就稀释了语义。 U1的做法是让两者在同一个表征空间里共享上下文，语义丰富性和像素级视觉保真度第一次同时拿住。简单讲，就是模型能像人一样，边思考边画草图，文字和图片在一段输出里自然交叠。比如，我让它生成一个“煎牛排的操作教学”。

它能从食材准备，沥干水分、调味、煎制和翻面……讲到最后装盘。每一步的关键操作都有图，牛排的形象从生肉到五分熟一路保持高度一致，不会画着画着变成另一块肉。再比如，我想学一点漫画分镜技巧。它能直接给我吐出图文并茂的教材式段落，从准备阶段、镜头建立、再到引入道具、次要角色一应俱全，比纯文字解释直观得多。

这种“始终是同一个主体”的连贯性看起来朴素，但对生成模型却很难。传统范式得在多个模型之间来回调用，各画各的，角色形象很容易在第三步就走样。U1是单次单模型调用直接出全套。对一个新模型来说，还有一个值得关注的考验就是—— 高密度信息图。

在模型界面中，你可以直接输入“自己的简历信息”，它就能返回你一张手绘风格的海报，信息分布、配色、字体层级都安排得明明白白。让它讲“三只小猪盖房子”，我输入只有这么“7个字”，输出就能直接给你一整组连环画—— 三只小猪、三种材料、三栋房子、最后那只大灰狼，一格一格排好，顺序对得上故事。炒红烧肉这类做菜教程图，也可以一次直出，图文对应。

给一句“做杯咖啡的英文流程图”，图也直接出来了。在讲究排版、涉及多种元素的插画场景中，U1也能实现比较精细的效果，比如这张划船乐的教学总览图。最有意思的是这个，扔给它一张路边常见的“电梯安全”警示牌，让它换个排版做成一张信息图。它还能直接把这个实现完美迁移，把版式从警示牌切成了科普卡片。前段时间火爆的产品爆炸图，在U1这里也可以做到。

一台相机，被它拆得整整齐齐：镜头组、反光镜、快门、传感器、芯片，电池什么的，统统被它拆得整整齐齐悬浮在空中，标注线一根不少。这种程度的玩法，以前是超大参数模型的专属。更有意思的一点是， SenseNova U1 Lite还在行业首创了图文交错的思维链。这种会推理的能力放到图像编辑上会更有趣。我扔给它一张刚泡好的玻璃杯热茶，让它“画出一小时后的样子”。

它没有简单地直接出图，而是先做了一段推理：一是给自己定约束，同一只玻璃杯、同一张原木桌面、同一种侧逆光，这样两张图放一起才看得出“是同一杯茶过了一小时”。二是推导物理：刚泡时，叶片高速舒展、气泡从叶脉逸出、蒸汽在杯壁上留下弧形折射；一小时后，多酚类扩散均匀，茶汤变深红褐，叶子完全沉降呈半透明，杯底跟桌面交界处出冷凝痕迹。

阅读原文

不卷参数卷架构，这个开源模型把图像理解和生成统一了

Toola 摘要

本地阅读

相关 AI 工具推荐