说明：

此信息由美团审核并发布（查看原发布网址），应届生求职网转载该信息只是出于传递更多就业招聘信息，促进大学生就业的目的。如您对此转载信息有疑义，请与原信息发布者美团核实，并请同时联系本站处理该转载信息。

[北京上海深圳]美团

职位：全模态Computer Use Agent前沿研究
发布时间：2026-07-01
工作地点：北京上海深圳其它
信息来源：美团
职位类型：兼职
专业标签：数学类自动化计算机
职位描述
【LongCat实习】全模态Computer Use Agent前沿研究

更新时间：2026-06-30
工作地点：北京市
事业群：核心本地商业-基础研发平台
岗位职责

下一代智能体将超越纯文本交互，在屏幕、软件乃至物理世界中运作——这要求模型具备将图像、视频、音频、文本等多模态感知与可靠的实时行动能力统一融合的底层能力。本课题聚焦于将全模态（Omni-modal）理解能力深度融入Computer Use Agent（CUA），构建"边看、边听、边想、边做"的原生全模态智能体系统，推动智能体从单一文本工具调用走向真实数字环境中的多模态自主操作。
具体地，我们关注如下研究方向：
1.全模态感知与GUI交互的统一建模：探索将视觉（屏幕截图、视频流）、听觉（语音指令、系统音频）、文本等多模态信号在统一架构下进行融合理解，使Agent能够基于多模态上下文进行精准的GUI元素定位、状态识别与操作决策，提升在复杂真实桌面/移动端环境下的任务完成能力。
2.长时序跨应用任务规划与执行：研究Agent在跨小时级、多应用协同的长程数字任务中的持续意图保持、动态重规划与自主纠错能力，解决当前CUA在长交互链中出现的上下文丢失、计划漂移与误差累积问题，使Agent能够自主稳定地完成复杂的端到端工作流。
3.实时流式感知与连续决策：从"处理静态截图"升级到"实时屏幕流+音频流"的连续感知模式，探索Agent在动态变化的数字环境中进行实时状态追踪与即时响应的能力，支撑直播监控、实时协作等需要持续交互的场景。
4.全模态Agent的高效学习范式：探索面向全模态CUA场景的强化学习训练方法，包括但不限于：多模态环境下的奖励建模与过程奖励设计、GUI交互轨迹的大规模RL Scaling、基于环境反馈的自进化与持续学习机制，以及多模态推理与行动的联合优化策略。
【为什么是我们】
1.全栈顶配算力支持，依托美团大规模算力集群，提供千卡至万卡级算力支持，具备成熟的分布式训练与低延迟推理优化栈，保障世界动作模型与 VLA 大规模训练。
2.与优秀人才同行，你将与行业顶尖的大模型研究员及机器人领域专家并肩作战，共同攻克具身智能的技术难点。

岗位基本要求

【必要项】
1.本科及以上学历，计算机、人工智能、自动化、数学等相关专业在读；
2.在以下一个或多个领域有较深入的研究或实践经验：多模态大模型（MLLM）、强化学习（RL）、Agent系统、GUI Agent / Computer Use、视觉-语言模型、跨模态融合；
3.熟悉Python，具备较强的工程实现能力，有大模型训练或推理实践经验者优先；
4.好奇心驱动，具备出色的问题分析与自主探索能力，能够在前沿不确定性较高的方向中持续推进；
5.具有良好的沟通协作能力，对追求前沿技术有强烈热情，能够与团队融洽合作，快速试验想法。
【加分项】
1.在ICLR/NeurIPS/ICML/ACL/CVPR等顶会发表论文者优先；
2.有影响力的开源项目中做出过核心贡献者优先；
3.有GUI Grounding、Screen Agent、Computer Use Agent、Browser Use/Web Agent等相关项目经验者优先。

立即申请：zh***com[点击查看]

登录或打开APP 查看全部

上一条：[北京上海]美团

下一条：[北京上海]美团