能自动操作手机、电脑的智能体新 SOTA 来了。
通义实验室推出Mobile-Agent-v3智能体框架,在手机端和电脑端的多个核心榜单上均取得开源最佳。
它不仅能做交互界面的问答、描述、定位,也能一条指令独立完成复杂任务,甚至可以在多智能体框架中无缝扮演不同角色。
PC+Web 演示:在 Edge 浏览器中搜索阿里巴巴的股价。然后在 WPS 中创建一个新表格,在第一列填写公司名称,在第二列填写股价。
PC 演示:
创建一个新的空白演示文稿,然后在第一张幻灯片中以艺术字的形式插入一段文本,内容为"阿里巴巴"。
Web 演示:
去哔哩哔哩看雷军的视频,然后给第一个视频点赞。
手机演示:
请帮我在小红书上搜索济南旅游攻略,按收藏数排序,并保存第一条笔记。
请帮我在携程上查询济南大明湖风景区的详细信息,包括地址、票价等。
自动化操作手机、电脑成为了各家多模态大模型攻坚的主战场。但是现有的模型,要么被训练成一个专用模型,输入输出格式固定,没有多面能力;要么就是能力不够强的通用模型,虽然能遵循指令,但实际执行总是磕磕绊绊。
这次来自通义实验室的 Mobile-Agent 团队给出新颖的解决方案,训练一个兼具基础能力与推理泛化能力的图形交互基础模型(Foundational Agent)。
它既能独当一面,在AndroidWorld、OSWorld、ScreenSpot 等 10 个主流 GUI 榜单中均取得了开源 SOTA 的水平;也能承担对话、问答、定位、界面描述等基础任务。
自我进化轨迹生产基建 ( Self-Evolving Trajectory Production )
GUI 基础模型的训练离不开大规模、高质量的轨迹数据。为此,通义 MobileAgent 团队依托阿里云强大的云能力,构建了一整套覆盖 Android、Ubuntu、macOS、Windows 的跨平台云环境基础设施。通过 PyAutoGUI 和 ADB 等工具,打通了模型输出到系统执行的障碍,使得模型可以大规模并行地在隔离的云端沙箱中进行任务执行和轨迹爬取。
在云环境基础上,团队设计了一套名为" Self-Evolving GUI Trajectory Production "的自动化数据生产链路,其核心是实现数据采集与模型优化的自动化闭环。
它首先通过高质量任务生成模块(High-Quality Query Generation)产出丰富多样的任务指令,再让 GUI-Owl 模型在云环境中执行(Roll-out)并爬取轨迹。
轨迹正确性判断模块(Trajectory Correctness Judgment)会对这些轨迹进行打分和筛选。
对于模型难以完成的高难度任务,任务指南生成模块(Query-specific Guidance Generation)会基于成功案例或人工标注,提炼出关键步骤提示,帮助模型在下一轮尝试中提高成功率。
最终,这些经过层层筛选和优化的的高质量轨迹被用于模型的迭代训练,形成一个不断自我增强的飞轮。
GUI 知识 & 推理能力 Are All You Need
Mobile-Agent 团队发现,构建通用的 GUI 基础模型(Foundational Agent)的关键在于强大的 GUI 基础知识以及鲁棒的推理能力。前者保证模型有解决问题的基本功,后者保证模型能够适应各种下游场景,无论是单打独斗,还是多智能体协同。
一、精准的界面元素定位:让 AI "指哪打哪"
要让 AI 真正理解图形界面,首先得让它知道"每个元素在哪、是什么、怎么用"。为此,团队构建了两类接地(grounding)任务数据:
1. UI 元素定位
数据来源包括三部分:
开源数据集 - 整合了 UI-Vision、GUI-R1 等多个公开 GUI 数据集。
基于无障碍树(A11y Tree)的数据合成 - 利用移动端和桌面端的无障碍信息,提取 UI 元素的边界框及其功能描述,并结合多模态大模型生成外观与布局描述。
爬取 PC 截图的密集定位 - 针对 PC 端标注数据稀缺的问题,团队爬取大量界面截图,采用 SAM 模型将图像分割为多个子区域,再由多模态大模型在每个区域内进行细粒度接地,有效解决了 PC 界面元素密集、难以分割的痛点。
为保证质量,所有标注结果均与 Omniparser V2 的 UI 检测结果进行比对,过滤掉 IoU 低于 0.5 的噪声框。同时,原始指令经由大模型重写为更自然、任务导向的表达。
2. 细粒度文字与字符接地(Fine-grained Text Grounding)
针对文档类界面中文字精确定位的需求,团队收集文档图像,结合 OCR 工具提取文本内容及其空间坐标,构建出支持单词甚至单字符级定位的数据集,使模型能够准确响应"点击第三段第二行的‘提交’二字"这类精细指令。
二、复杂任务规划:教会 AI "先想后做"
面对长周期、跨应用的真实任务,模型不仅需要"看得懂",更要"想得清"。为此,团队从两个维度构建任务规划数据:
从历史轨迹中提炼经验 - 基于已有的成功操作轨迹,对每一步页面跳转进行细粒度描述,通过大模型整理成结构化的"任务执行手册"。
从大规模预训练语言模型中蒸馏知识 - 收集主流应用列表,由人工或模型生成复杂任务,交由 Qwen3-235B 等超大规模语言模型生成详细执行计划,再经整合清洗,形成高质量的任务规划数据集。
三、动作语义理解:掌握"操作如何改变界面"
一个优秀的界面智能体,必须理解"动作"与"状态变化"之间的因果关系。基于大量真实操作轨迹,团队构建了"操作前" / "操作后"的截图对,核心任务是让模型根据界面变化,反向推断出中间发生的操作——包括动作类型和具体参数。
这类数据直接来自离线采集的轨迹,真实可靠,帮助模型建立起『视觉差异 → 用户行为』的因果映射能力。
强化学习进阶:让 AI 在真实交互中"越练越强"
仅靠离线 SFT 数据还不够,模型需要在与环境的真实交互中持续学习,才能解决长尾问题、提升决策鲁棒性。
为此,Mobile-Agent 团队引入强化学习(RL),并构建了一套高效、灵活的训练基础设施:
1 解耦式、可调控的 Rollout 机制:将经验生成与策略更新完全解耦。系统既可严格按策略同步运行,也可异步执行,同时 Rollout 服务可独立部署在专用于推理的硬件上,在不牺牲学习质量的前提下,显著提升训练吞吐效率。
2 统一的多任务接口:无论是单步推理还是多轮交互的复杂任务,都通过统一的插件接口接入系统,极大降低了新环境的接入成本。
3 独创的轨迹感知相对策略优化(TRPO)算法:
直面挑战:
GUI 任务的奖励信号通常是稀疏且延迟的(Sparse & Delayed),这给传统的 RL 带来了巨大的信用分配难题(Credit Assignment Problem)。
解决方案:
TRPO 算法在一次任务结束后,对整条轨迹计算一个总奖励(成功 +1,失败 0,格式错误 -0.5)。然后,通过归一化的优势估计(Normalized Advantage Estimate),将这个奖励信号稳定且均匀地分配给轨迹中的每一步操作。
关键创新:**
引入了基于任务 ID 的成功轨迹回放池(Replay Buffer)。 当某个任务的在线探索(Rollout)全部失败时,系统会从池中取出一个历史成功轨迹替换掉其中一个失败样本,确保每个训练批次都有正向信号 **,极大提升了学习效率和稳定性。
通过这套先进的 RL 框架,GUI-Owl 在动态环境中的表现得到巨大提升,在 OSWorld-Verified 基准测试中,成功率从 27.1% 稳定提升至 34.9%。
多智能体协同:让 AI 团队协作完成复杂任务
团队在 GUI-Owl 强大能力基础上,进一步推出Mobile-Agent-v3,一个支持知识演进、任务规划、子任务执行与反思推理的多智能体协作框架。Mobile-Agent-v3 由四位"特工"协同驱动,并且这四个角色均由同一个 GUI-Owl 模型扮演。
Manager Agent 负责全局战略规划。接到用户指令后,它会先调用 RAG 模块检索外部知识,然后将高阶任务拆解为有序的子目标序列。在执行过程中,它持续接收反馈,动态调整计划。
Worker Agent 负责执行操作。面对当前界面状态,它选择最合适的动作并执行,输出包含推理过程、操作指令与意图说明的完整行动元组(Action Tuple)。
Reflector Agent 负责事后复盘。每一步操作后,它都会比对 Worker 的预期结果与实际界面变化,判断结果为 成功 或 失败,并生成详细的归因分析。
Notetaker Agent 负责记忆沉淀。仅在成功操作后触发,它会自动提取关键信息——如验证码、订单号等——存入长期记忆,供后续步骤使用。
四者协同,形成一个闭环增强的自动化流水线:拆解 → 执行 → 检查 → 记录 → 调整 → 再执行。
在 Mobile-Agent-v3 的架构下,AI 不再盲目试错,而是有计划地行动、有依据地修正、有记忆地推进。
实验结果
团队还开源了全新的全异步、轨迹级强化学习框架,并提出独创的轨迹感知相对策略优化(TRPO)算法,在 OSWorld 动态环境中将成功率提升近 8 个百分点,展现出自进化潜力。
在遇到复杂任务时,端到端模型往往力不从心,这时就需要多智能体框架来帮大模型理清工作流程。然而 GUI 专用模型因指令遵循能力弱,很难用于多智能体框架。GUI-Owl 通过对推理数据的深度训练,使其能在一个模型内无缝扮演规划者、执行者、反思者、记录员等多种角色。 配合全新的 Mobile-Agent-v3 框架,在真实环境评测中,带来了高达 7~8 个百分点的性能提升。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展每日见
盛鹏配资-盛鹏配资官网-配资网上配资-老牌股票配资平台提示:文章来自网络,不代表本站观点。