AI产品量子位 - 资讯2026年4月28日

消费级显卡可以快速上手跑！面壁智能MiniCPM-o 4.5发技术报告

AI产品AI模型AI工具

Toola 摘要

消费级显卡可以快速上手跑！面壁智能MiniCPM-o 4.5发技术报告衡宇 2026-04-28 22:50:10 来源：量子位下载量突破25万面壁智能投稿量子位 | 公众号 QbitAI 面壁智能公开了自己在全双工全模态交互领域的核心技术—— Omni-Flow 流式全模态框架。今天，面壁智能联合OpenBMB开源社区、清华大学THUNLP实验室和THUMAI实验室，正式发布MiniCPM-o 4.5技术报告。过往大...

本地阅读

以下内容来自新闻源 RSS，仅用于快速了解重点。

查看原文

消费级显卡可以快速上手跑！面壁智能MiniCPM-o 4.5发技术报告 – 量子位首页资讯智能车智库活动 MEET大会 AIGC 扫码关注量子位 --> 消费级显卡可以快速上手跑！

面壁智能MiniCPM-o 4.5发技术报告衡宇 2026-04-28 22:50:10 来源：量子位下载量突破25万面壁智能投稿量子位 | 公众号 QbitAI 面壁智能公开了自己在全双工全模态交互领域的核心技术—— Omni-Flow 流式全模态框架。

今天，面壁智能联合OpenBMB开源社区、清华大学THUNLP实验室和THUMAI实验室，正式发布MiniCPM-o 4.5技术报告。过往大模型均为半双工交互模式，类似对讲机式轮次对话。用户与AI无法并行交流，AI无法实时感知环境、不能被打断插话，存在交互时空割裂，用户体验差，严重制约多模态AI落地应用。

MiniCPM-o 4.5是面壁智能今年2月发布的全双工全模态模型，也是业界首个端到端全双工全模态大模型。 △MiniCPM-o 4.5 实现了最右侧的全双工流式交互该模型参数规模约9B，支持视频、音频、文本流输入及文本与语音的连续输出。

利用MiniCPM-o 4.5，不用联网、仅用一张消费级显卡，你就能在个人电脑上拥有一个“边看、边听、边说、还能主动提醒”的类人AI助手。目前，MiniCPM-o 4.5已基于llama.cpp完成模型量化和推理性能优化，实测最低12GB显存的RTX 5070即可流畅运行全双工模式（RTF0.4)，极大降低了个人端侧部署的准入门槛。

M1-M5 Max（包含M5 Pro）的MAC设备亦可使用，建议内存超过16G。下面这支视频展示了MiniCPM-o 4.5在个人笔记本上的完整部署与运行过程，包括全双工语音对话、实时视觉理解、主动提醒等能力演示。模型发布至今，抱抱脸下载量已突破25万+。

技术报告发布之外，MiniCPM-o 4.5还同步推出在线体验Demo、全模态全双工API、端侧安装包Comni和Demo仓库。核心依托Omni-Flow流式全模态框架 MiniCPM-o 4.5极致流畅的全双工交互体验，核心依托于面壁智能与清华大学联合研发的 Omni-Flow流式全模态框架。这也是本次技术报告公开的核心底层技术。

该框架打破传统模型孤立的回合式交互逻辑，搭建起毫秒级统一时间轴。通过时分复用机制，Omni-Flow流式全模态框架将视觉、音频、文本等多模态并行信息流，精准对齐、拆分重组为周期性时序信息组。模型以每秒一次的高频次持续刷新环境认知，实时更新对场景和用户意图的理解，全程无需依赖外部VAD语音活动检测工具，原生支持持续感知、即时响应、自由打断。

在模型架构上，MiniCPM-o 4.5采用轻量化端到端全模态设计，整体仅9B参数，由四大核心模块高效协同构成： 0.4B参数SigLIP-ViT视觉编码器负责环境视觉感知； 0.3B参数Whisper-Medium音频编码器完成声音信息采集； 8B参数Qwen3-8B LLM基座承担核心思考与语义理解；搭配0.3B参数轻量级语音Token解码器实现语音生成。

模块化分工设计各司其职、高效联动，既保留了大模型强大的理解推理能力，又规避了复杂声学任务对核心算力的损耗。同时搭配自研TAIL时间对齐交错语音生成方案，精准匹配文本与语音输出节奏。在保证语音流畅自然、情感饱满的前提下，最大限度降低交互延迟，彻底解决流式对话卡顿、滞后、衔接生硬的行业难题。参数不大，但实力不容小觑。

在多项权威评测基准中实现越级对标，MiniCPM-o 4.5综合性能比肩甚至超越多款行业前沿大模型。在视觉能力上，模型OpenCompass综合得分77.6、MMBench英文得分87.6，整体表现对标Gemini 2.5 Flash，图像理解、数学推理、文档解析能力表现优异。

在全模态动态交互、视频场景理解领域，MiniCPM-o 4.5的优势更为突出。 Daily-Omni、Video-Holmes等多项评测数据显示，MiniCPM-o 4.5优于Gemini 2.5 Flash等大模型的表现；在LiveSports-3K-CC全双工视频基准测试中，胜率达到54.4%，领先各类专用流式视频模型。同时模型推理效率优势显著。

阅读原文

消费级显卡可以快速上手跑！面壁智能MiniCPM-o 4.5发技术报告

Toola 摘要

本地阅读

相关 AI 工具推荐