阿里 QwQ-VL-Plus 上线：11 小时跑完 App，多模态 Agent 开始自己写代码了

带多模态的 Agent 模型，开始不只是「看懂图」了——它能一句话接活，然后自己开干。

量子位报道，阿里新上线的 QwQ-VL-Plus，在演示中独立完成了一项软件工程任务：给它一句指令，11 小时后，一个可以运行的网页版 macOS 界面出现在屏幕上，代码量超过 10000 行，工具调用次数超 1000 次。1

コンテンツカードを読み込んでいます…

一句话，十几分钟，仿写一个系统界面

演示视频里，QwQ-VL-Plus 接到的指令只有一句话：仿写一个网页版 macOS 界面。1

结果出来之后，每个应用图标都可以点进去，终端输入命令还能返回结果。这不是预置的模板，而是模型自己写出来的交互逻辑。

上面那个快速演示只是热身。把任务周期拉长到 11 小时，QwQ-VL-Plus 能完成一个更完整的 App 工程：10000 行以上的代码，超过 1000 次工具调用。整个过程不需要人工介入。

QwQ-VL-Plus 的核心定位是多模态 Agent 模型。「多模态」意味着它能理解图像，「Agent」意味着它能自主规划任务并调用工具执行。

把两个能力放在一个模型里，效果的变化不只是叠加。一个只能看图的模型，和一个能看图、能写代码、能运行代码、能根据运行结果继续调整的模型，在工程任务上的差距是数量级的。

以往多模态模型更多是「理解型」——看懂图、描述图、回答图里的问题。QwQ-VL-Plus 往前走了一步：它能把看到的界面、截图或需求说明，直接转化成可执行的代码行动。

量子位对这款模型的关注点落在「Agent 工程能力」上，而不是跑分。

这个侧重本身值得注意。过去两年，大模型评测主要看 Benchmark——各种推理题、数学题、代码题的得分排名。但「11 小时 10000 行代码」这类演示，考验的是模型在真实工程任务里的持续行动能力：能不能完成多步骤任务，中途出错能不能自己纠正，最终产出能不能用。

阿里 Qwen 系列此前已在代码和推理方向有积累。QwQ-VL-Plus 是在多模态方向追加 Agent 能力，方向和 Anthropic Claude 的 Computer Use、Google Gemini 的多模态 Agent 路线类似，但具体落点不同。

目前 QwQ-VL-Plus 的完整技术细节尚未完整公开，调用方式和 API 定价也未见详述。对于需要处理「看图然后干活」类任务的开发者来说，这个方向值得持续跟踪。