首页 > 北京 兼职 > 职位详细
说明:

此信息由美团审核并发布(查看原发布网址),应届生求职网转载该信息只是出于传递更多就业招聘信息,促进大学生就业的目的。如您对此转载信息有疑义,请与原信息发布者美团核实,并请同时联系本站处理该转载信息。

[北京]美团

职位:大模型智能体学习方向Agent Research Intern
发布时间:2026-04-01
工作地点:北京
信息来源:美团
职位类型:兼职
职位描述
Agent Research Intern(大模型智能体学习方向)

更新时间:2026-04-01
工作地点:北京市
事业群:核心本地商业-基础研发平台
工作经验:不限

部门介绍

基础研发平台是美团的核心技术平台,立足于“零售+科技”的战略定位,通过打造人工智能、大数据、云计算、安全等核心技术能力,以及研发效能平台、企业应用平台等公共服务,为业务提供稳定安全、扩展易用、技术领先的平台技术和产品服务。
在这里,我们会参与到最前沿的技术研发和探索;能够接触超规模集群、海量数据,挑战高复杂业务场景,有机会与业界一流的工程师一起并肩前行。
在这里,我们有超强的技术氛围,持续向社区贡献业界实践,加速行业技术发展;我们有完善的互联网学习生态圈,重视底层逻辑和方法论,助力职业生涯的非线性成长。
真诚地邀请你,和我们一起驱动技术发展,创造行业价值。

岗位职责

- 参与面向 Agent 的大模型后训练新范式研究,包括但不限于:基于轨迹的后训练、面向工具使用与环境交互的策略优化、面向长时程任务的能力塑造等。
- 参与 On-policy learning 与 Online learning 在智能体场景中的方法探索与系统落地,研究如何在真实或半真实环境中提升模型的持续交互、试错学习与在线改进能力。
- 参与 智能体记忆机制研究,包括长期记忆、工作记忆、情景记忆、可检索记忆与记忆治理等方向,探索记忆对长时程任务、多轮规划与复杂决策能力的作用。
- 参与过程奖励模型(Process Reward Model, PRM)及相关可验证反馈机制研究,探索如何为 Agent 的中间步骤、行为轨迹与决策过程提供更细粒度、更稳定的学习信号。
- 参与搭建和迭代 Agent 研究所需的实验范式,包括环境构建、数据生成、评测基准、自动化分析工具与训练基础设施,推动研究从想法验证走向稳定复现。
- 跟进并复现学界与业界研究进展,围绕 Agent learning、RL for LLM、记忆、工具使用、可验证性等方向开展深入调研、实验与总结,形成高质量技术报告、研究原型或论文产出。

岗位基本要求

1. 计算机、人工智能、数学、统计学、电子信息或相关专业本科高年级、硕士或博士在读。
2. 具备扎实的机器学习基础,对以下至少一个方向有较深入理解:
- 大语言模型与后训练
- 强化学习 / Online learning / Bandit / Sequence decision making
- Agent / Tool use / Planning / Reasoning
- 记忆增强模型 / RAG / 长上下文建模
- Reward modeling / Preference learning / PRM / ORM
3. 熟悉 Python,具备较强的工程实现能力,能够独立完成实验、调参与结果分析;熟悉 PyTorch,并具有一定的大模型训练或推理实践经验。
4. 具备较强的论文阅读、问题抽象与实验设计能力,能够围绕一个研究问题提出清晰假设、设计验证方案并推进落地。
5. 具备良好的沟通协作能力与研究主动性,能够在不确定性较高的前沿问题中快速学习、持续推进。

具备以下条件优先

1. 有以下任一方向的研究或项目经历者优先:\n- LLM post-training / RLHF / RLAIF / DPO / GRPO / policy optimization\n- Agent 系统、工具调用、规划执行、多轮决策\n- Online RL / On-policy RL / Offline-to-Online 学习\n- 过程奖励模型、奖励建模、偏好学习、自动反馈\n- 记忆系统、RAG、长期上下文、检索增强推理\n2. 在 NeurIPS、ICML、ICLR、ACL、EMNLP、COLM、AAAI、KDD 等会议,或相关高质量开源项目中有论文、复现、核心贡献者经历者优先。\n3. 有大模型训练、分布式训练、评测系统、数据合成、环境构建、自动化实验平台经验者优先。\n4. 有较强数学基础,对序列决策、优化、概率建模、信用分配等问题有系统理解者优先。\n5. 对前沿研究有强烈兴趣,具备自驱力、批判性思维和较强执行力者优先。

岗位亮点

- 直接参与 Agent 方向最前沿的核心研究问题,研究主题覆盖 Agent 后训练、在线学习、过程监督、记忆机制、环境与可验证性等高潜力方向。\n- 真实面向智能体能力演化的研究任务,有机会接触从训练范式、评测体系到系统落地的一整套研究链条。\n- 有机会深度参与高质量研究项目,推动成果形成技术报告、开源原型、内部核心能力建设,优秀者可进一步参与论文撰写与投稿。\n- 团队强调研究与工程并重,鼓励从真实问题中提炼研究议题,适合希望在 LLM Agent / RL / Memory / Reasoning 方向深入发展的同学。\n- 与经验丰富的研究人员和工程同学紧密合作,接触大模型智能体方向的一线问题定义、方法设计与实验体系。

立即申请:zh***com[点击查看]

登录打开APP 查看全部

上一条:[北京]美团

下一条:[北京]美团