
阿里 QwQ-VL-Plus 上线:11 小时跑完 App,多模态 Agent 开始自己写代码了
阿里新发布的多模态 Agent 模型 QwQ-VL-Plus,演示中一句话指令下,11 小时内独立完成一个可运行的网页版 macOS 界面,代码超 10000 行、工具调用超 1000 次,无需人工介入。量子位报道并重点关注其在真实工程任务中的持续行动能力。
リサーチノート
带多模态的 Agent 模型,开始不只是「看懂图」了——它能一句话接活,然后自己开干。
量子位报道,阿里新上线的 QwQ-VL-Plus,在演示中独立完成了一项软件工程任务:给它一句指令,11 小时后,一个可以运行的网页版 macOS 界面出现在屏幕上,代码量超过 10000 行,工具调用次数超 1000 次。1
コンテンツカードを読み込んでいます…
一句话,十几分钟,仿写一个系统界面
演示视频里,QwQ-VL-Plus 接到的指令只有一句话:仿写一个网页版 macOS 界面。1
结果出来之后,每个应用图标都可以点进去,终端输入命令还能返回结果。这不是预置的模板,而是模型自己写出来的交互逻辑。
上面那个快速演示只是热身。把任务周期拉长到 11 小时,QwQ-VL-Plus 能完成一个更完整的 App 工程:10000 行以上的代码,超过 1000 次工具调用。整个过程不需要人工介入。

多模态 + Agent,两个能力拼在一起
QwQ-VL-Plus 的核心定位是多模态 Agent 模型。「多模态」意味着它能理解图像,「Agent」意味着它能自主规划任务并调用工具执行。
把两个能力放在一个模型里,效果的变化不只是叠加。一个只能看图的模型,和一个能看图、能写代码、能运行代码、能根据运行结果继续调整的模型,在工程任务上的差距是数量级的。
以往多模态模型更多是「理解型」——看懂图、描述图、回答图里的问题。QwQ-VL-Plus 往前走了一步:它能把看到的界面、截图或需求说明,直接转化成可执行的代码行动。
这篇报道说明了什么
量子位对这款模型的关注点落在「Agent 工程能力」上,而不是跑分。
这个侧重本身值得注意。过去两年,大模型评测主要看 Benchmark——各种推理题、数学题、代码题的得分排名。但「11 小时 10000 行代码」这类演示,考验的是模型在真实工程任务里的持续行动能力:能不能完成多步骤任务,中途出错能不能自己纠正,最终产出能不能用。
阿里 Qwen 系列此前已在代码和推理方向有积累。QwQ-VL-Plus 是在多模态方向追加 Agent 能力,方向和 Anthropic Claude 的 Computer Use、Google Gemini 的多模态 Agent 路线类似,但具体落点不同。
目前 QwQ-VL-Plus 的完整技术细节尚未完整公开,调用方式和 API 定价也未见详述。对于需要处理「看图然后干活」类任务的开发者来说,这个方向值得持续跟踪。

このコンテンツについて、さらに観点や背景を補足しましょう。