首页 > 北京兼职 > 职位详细

说明：

此信息由美团审核并发布（查看原发布网址），应届生求职网转载该信息只是出于传递更多就业招聘信息，促进大学生就业的目的。如您对此转载信息有疑义，请与原信息发布者美团核实，并请同时联系本站处理该转载信息。

[北京]美团

职位：大模型智能体学习方向Agent Research Intern
发布时间：2026-04-01
工作地点：北京
信息来源：美团
职位类型：兼职
职位描述
Agent Research Intern（大模型智能体学习方向）

更新时间：2026-04-01
工作地点：北京市
事业群：核心本地商业-基础研发平台
工作经验：不限

部门介绍

基础研发平台是美团的核心技术平台，立足于“零售+科技”的战略定位，通过打造人工智能、大数据、云计算、安全等核心技术能力，以及研发效能平台、企业应用平台等公共服务，为业务提供稳定安全、扩展易用、技术领先的平台技术和产品服务。
在这里，我们会参与到最前沿的技术研发和探索；能够接触超规模集群、海量数据，挑战高复杂业务场景，有机会与业界一流的工程师一起并肩前行。
在这里，我们有超强的技术氛围，持续向社区贡献业界实践，加速行业技术发展；我们有完善的互联网学习生态圈，重视底层逻辑和方法论，助力职业生涯的非线性成长。
真诚地邀请你，和我们一起驱动技术发展，创造行业价值。

岗位职责

- 参与面向 Agent 的大模型后训练新范式研究，包括但不限于：基于轨迹的后训练、面向工具使用与环境交互的策略优化、面向长时程任务的能力塑造等。
- 参与 On-policy learning 与 Online learning 在智能体场景中的方法探索与系统落地，研究如何在真实或半真实环境中提升模型的持续交互、试错学习与在线改进能力。
- 参与智能体记忆机制研究，包括长期记忆、工作记忆、情景记忆、可检索记忆与记忆治理等方向，探索记忆对长时程任务、多轮规划与复杂决策能力的作用。
- 参与过程奖励模型（Process Reward Model, PRM）及相关可验证反馈机制研究，探索如何为 Agent 的中间步骤、行为轨迹与决策过程提供更细粒度、更稳定的学习信号。
- 参与搭建和迭代 Agent 研究所需的实验范式，包括环境构建、数据生成、评测基准、自动化分析工具与训练基础设施，推动研究从想法验证走向稳定复现。
- 跟进并复现学界与业界研究进展，围绕 Agent learning、RL for LLM、记忆、工具使用、可验证性等方向开展深入调研、实验与总结，形成高质量技术报告、研究原型或论文产出。

岗位基本要求

1. 计算机、人工智能、数学、统计学、电子信息或相关专业本科高年级、硕士或博士在读。
2. 具备扎实的机器学习基础，对以下至少一个方向有较深入理解：
- 大语言模型与后训练
- 强化学习 / Online learning / Bandit / Sequence decision making
- Agent / Tool use / Planning / Reasoning
- 记忆增强模型 / RAG / 长上下文建模
- Reward modeling / Preference learning / PRM / ORM
3. 熟悉 Python，具备较强的工程实现能力，能够独立完成实验、调参与结果分析；熟悉 PyTorch，并具有一定的大模型训练或推理实践经验。
4. 具备较强的论文阅读、问题抽象与实验设计能力，能够围绕一个研究问题提出清晰假设、设计验证方案并推进落地。
5. 具备良好的沟通协作能力与研究主动性，能够在不确定性较高的前沿问题中快速学习、持续推进。

具备以下条件优先

1. 有以下任一方向的研究或项目经历者优先：\n- LLM post-training / RLHF / RLAIF / DPO / GRPO / policy optimization\n- Agent 系统、工具调用、规划执行、多轮决策\n- Online RL / On-policy RL / Offline-to-Online 学习\n- 过程奖励模型、奖励建模、偏好学习、自动反馈\n- 记忆系统、RAG、长期上下文、检索增强推理\n2. 在 NeurIPS、ICML、ICLR、ACL、EMNLP、COLM、AAAI、KDD 等会议，或相关高质量开源项目中有论文、复现、核心贡献者经历者优先。\n3. 有大模型训练、分布式训练、评测系统、数据合成、环境构建、自动化实验平台经验者优先。\n4. 有较强数学基础，对序列决策、优化、概率建模、信用分配等问题有系统理解者优先。\n5. 对前沿研究有强烈兴趣，具备自驱力、批判性思维和较强执行力者优先。

岗位亮点

- 直接参与 Agent 方向最前沿的核心研究问题，研究主题覆盖 Agent 后训练、在线学习、过程监督、记忆机制、环境与可验证性等高潜力方向。\n- 真实面向智能体能力演化的研究任务，有机会接触从训练范式、评测体系到系统落地的一整套研究链条。\n- 有机会深度参与高质量研究项目，推动成果形成技术报告、开源原型、内部核心能力建设，优秀者可进一步参与论文撰写与投稿。\n- 团队强调研究与工程并重，鼓励从真实问题中提炼研究议题，适合希望在 LLM Agent / RL / Memory / Reasoning 方向深入发展的同学。\n- 与经验丰富的研究人员和工程同学紧密合作，接触大模型智能体方向的一线问题定义、方法设计与实验体系。

立即申请：zh***com[点击查看]

登录或打开APP 查看全部

上一条：[北京]美团

下一条：[北京]美团

首页 - 登录

Top