首页 > 其它 全职 > 职位详细
说明:

此信息由浙江大学审核并发布(查看原发布网址),应届生求职网转载该信息只是出于传递更多就业招聘信息,促进大学生就业的目的。如您对此转载信息有疑义,请与原信息发布者浙江大学核实,并请同时联系本站处理该转载信息。

[杭州]西湖心辰(杭州)科技有限公司

职位:大模型训练加速工程师
发布时间:2025-04-01
工作地点:其它
信息来源:浙江大学
职位类型:全职
职位描述
西湖心辰(杭州)科技有限公司

招聘信息

大模型训练加速工程师

2025-04-01 10:42:49

职位描述

核心职责(任意一项即可)

大语言模型强化学习: 针对性训练加速

基于verl,OpenRLHF等训练框架,开发和构建RLHF加速方案,优化PPO阶段的多模型协同训练效率

探索研究PPO,GRPO等前沿算法,训练模型并研究实际效果,进行性能优化和模型效果优化

FP8混合精度训练优化

开发和优化基于FP8精度的分布式训练框架,覆盖预训练/SFT/RLHF全流程

设计FP8与BF16混合精度策略,提升集群算力利用率

MoE模型高效训练

研发MoE模型,预训练/SFT/RLHF,开发动态专家并行系统,优化MoE模型通信开销(专家路由/梯度同步等)

实现MoE模型的弹性伸缩训练,支持专家参数动态分配

集群智能监控与分析

构建针对dense模型训练,FP8训练,MoE训练等专项监控系统,实时追踪张量精度溢出、专家负载均衡等指标

开发训练瓶颈智能诊断工具,自动推荐并行策略与超参调优方案

岗位要求:

计算机/电子工程相关专业硕士及以上学历优先

熟练掌握PyTorch分布式训练(FSDP/DDP),有Megatron-DeepSpeed实战经验

熟悉NCCL通信优化,能针对性优化AllGather/ReduceScatter等操作

有以下至少一项经验:

参与过1B+模型全流程训练

在MLSys/PPoPP等会议发表过系统优化论文

CUDA性能调优经验

加分项:

在NeurIPS/ICML/ICLR发表过以下领域论文:

RLHF收敛性理论研究

混合精度训练稳定性分析

MoE模型动态路由算法创新

向Megatron-DeepSpeed提交过RLHF/FP8/MoE相关核心代码

维护Star数500+的分布式训练工具库

可实习,实习生要求:

每周至少4天到岗,持续3个月以上

熟悉Python/C++,能快速上手分布式训练代码

在Kaggle/天池等竞赛获TOP10成绩者优先

职位类别:计算机软、硬件/互联网/IT

专业要求:理学,工学

单位简介

创始人蓝振忠,西湖大学特聘研究员、博士生导师。博士毕业于卡内基梅隆大学计算机系,长期致力于自然语言处理、计算机视觉和深度学习的融合与应用研究。曾任谷歌人工智能研究院科学家,多家公司首席科学家 ,是 NLP轻量级预训练语言模型“ALBERT”第一作者,亦是目前国内被最广泛应用的大模型评价指标“CLUE”和“SuperCLUE”的 联合推出人 。

自主研发的“西湖大模型”,具备卓越的语义理解、逻辑推理、知识整合与多轮对话能力。

自主研发的端到端语音模型“心辰Lingo”,集成了语音识别、自然语言处理、意图识别、对话管理以及语音合成等多项前沿技术,实现了从语音输入到语音反馈的完整交互过程。

凭借在AI领域的深厚积累与持续创新精神,我们已成功推出多款备受欢迎的AI产品,如AI心理咨询平台“聊会小天”、AI智能写作平台“Friday”以及AI绘画平台“造梦日记”等。同时,在海外市场上,“AI Companion” 、“AI 可交互内容”系列也屡获佳绩,月访问量突破千万,居各大AI产品榜单前列。

基于强大的模型能力,我们已成功完成多个B端项目合作,如亲情在线的政策问答机器人,与杭州市第一人民医院联合推出的AI心理医生“市一小西”,与汤姆猫携手打造的“汤姆猫儿童情感陪伴机器人”等。我们的技术在为各行各业注入AI的智慧与力量。

我们诚邀热爱AI、勇于创新的你加入我们的团队。在这里,你将有机会参与最前沿的AI技术研究,与业界顶尖人才共事,共同推动AI技术的革新与应用。如果你渴望在一个充满挑战与机遇的环境中成长,那么,请不要犹豫,加入我们,一起开启AI新篇章!

联系方式

公司地址

登录打开APP 查看全部

上一条:[杭州]中国民用航空华东地区空中交通管理局浙江分局

下一条:[杭州]西湖心辰(杭州)科技有限公司