首页 > 其它全职 > 职位详细

说明：

此信息由浙江大学审核并发布（查看原发布网址），应届生求职网转载该信息只是出于传递更多就业招聘信息，促进大学生就业的目的。如您对此转载信息有疑义，请与原信息发布者浙江大学核实，并请同时联系本站处理该转载信息。

[杭州]西湖心辰（杭州）科技有限公司

职位：大模型推理加速工程师
发布时间：2025-04-01
工作地点：其它
信息来源：浙江大学
职位类型：全职
职位描述
西湖心辰（杭州）科技有限公司

招聘信息

大模型推理加速工程师

2025-04-01 11:14:23

职位描述

工作方向：低延迟推理/长上下文处理/MoE优化

核心职责（任意一项即可）：

生产级系统优化：

优化部署代码，提升业务服务吞吐量，降低服务时延

设计智能批处理系统

开发分布式推理资源调度器，提升集群利用率

构建全链路监控体系，实时追踪GPU SM利用率/显存碎片率等核心指标

FP8量化，INT8量化等前沿技术跟进和量化技术研究

长上下文推理优化

研发KVCache管理方案，支持128K+长文本输入

优化长文本Attention机制，降低长文本P99延迟

设计显存-内存-磁盘三级缓存系统，突破单卡上下文长度限制

岗位要求

计算机/电子工程相关专业硕士及以上学历

1年以上LLM推理优化经验（需提供延迟/吞吐量提升的量化数据）

熟悉/精通以下至少一项：

PD分离优化：有计算-通信流水线设计经验，熟悉NVLINK/NVSwitch拓扑优化

量化部署：

FP8量化：掌握H100 Transformer Engine调校，熟悉精度损失分析工具链

INT8部署：有10亿+参数模型无损量化落地经验

长文本处理：

精通RingAttention/FlashAttention-2等长上下文优化技术

有KVCache压缩算法研发经验（如稀疏化/动态丢弃）

加分项：

在MLSys/ASPLOS等顶会发表过推理优化相关论文

主导过在线推理系统架构设计

熟悉LLM服务框架（TGI/DeepSpeed-MII）源码并有重大贡献

持有推理加速相关专利或开源项目（GitHub 500+ Stars）

可实习，实习生要求：

每周至少4天到岗，持续3个月以上

熟悉Python/C++，能快速上手分布式训练代码

在Kaggle/天池等竞赛获TOP10成绩者优先

职位类别:计算机软、硬件/互联网/IT

专业要求:理学,工学

单位简介

创始人蓝振忠，西湖大学特聘研究员、博士生导师。博士毕业于卡内基梅隆大学计算机系，长期致力于自然语言处理、计算机视觉和深度学习的融合与应用研究。曾任谷歌人工智能研究院科学家，多家公司首席科学家，是 NLP轻量级预训练语言模型“ALBERT”第一作者，亦是目前国内被最广泛应用的大模型评价指标“CLUE”和“SuperCLUE”的联合推出人。

自主研发的“西湖大模型”，具备卓越的语义理解、逻辑推理、知识整合与多轮对话能力。

自主研发的端到端语音模型“心辰Lingo”，集成了语音识别、自然语言处理、意图识别、对话管理以及语音合成等多项前沿技术，实现了从语音输入到语音反馈的完整交互过程。

凭借在AI领域的深厚积累与持续创新精神，我们已成功推出多款备受欢迎的AI产品，如AI心理咨询平台“聊会小天”、AI智能写作平台“Friday”以及AI绘画平台“造梦日记”等。同时，在海外市场上，“AI Companion” 、“AI 可交互内容”系列也屡获佳绩，月访问量突破千万，居各大AI产品榜单前列。

基于强大的模型能力，我们已成功完成多个B端项目合作，如亲情在线的政策问答机器人，与杭州市第一人民医院联合推出的AI心理医生“市一小西”，与汤姆猫携手打造的“汤姆猫儿童情感陪伴机器人”等。我们的技术在为各行各业注入AI的智慧与力量。

我们诚邀热爱AI、勇于创新的你加入我们的团队。在这里，你将有机会参与最前沿的AI技术研究，与业界顶尖人才共事，共同推动AI技术的革新与应用。如果你渴望在一个充满挑战与机遇的环境中成长，那么，请不要犹豫，加入我们，一起开启AI新篇章！

联系方式

公司地址

登录或打开APP 查看全部

上一条：[杭州]西湖心辰（杭州）科技有限公司

下一条：[浙江]万丰奥特控股集团有限公司

首页 - 登录

Top