此信息由浙江大学审核并发布(查看原发布网址),应届生求职网转载该信息只是出于传递更多就业招聘信息,促进大学生就业的目的。如您对此转载信息有疑义,请与原信息发布者浙江大学核实,并请同时联系本站处理该转载信息。
[浙江]浙江省健康云有限公司
职位:AI运维工程师
发布时间:2026-03-18
工作地点:其它
信息来源:浙江大学
职位类型:全职
职位描述
浙江省健康云有限公司
招聘信息
AI运维工程师
2026-03-18 13:28:21
职位描述
职位职责:
1. 负责健康云大模型训练/推理算力集群的日常运维与稳定性保障,涵盖GPU服务器、分布式存储等硬件资源,落实7x24小时业务连续性要求,快速响应算力故障并推动根因闭环。
2. 参与算力集群自动化运维体系搭建,基于Python/Go脚本开发运维工具,实现算力调度、资源监控、故障自愈的自动化落地,提升算力交付效率。
3. 协同业务优化算力资源配置,开展GPU集群性能调优,监控显存占用、算力利用率等核心指标,保障大模型训练任务高效推进,降低算力成本。
4. 参与OPS体系构建,对接模型训练平台,实现模型训练、部署全流程的运维支撑与标准化管理,沉淀算力运维最佳实践。
5. 跟踪算力调度、AI运维领域技术趋势,探索大模型运维智能化方案,参与算力集群扩容、架构迭代等核心项目。
职位要求:
1. 计算机科学与技术、人工智能、软件工程、云计算等相关专业;熟悉Linux操作系统(CentOS、Ubuntu),具备系统配置、性能调优、故障排查能力,掌握至少一门脚本语言(Python/Go等)。
2. 了解大模型基础概念与训练/推理流程,对GPU硬件特性、分布式算力调度有基础认知,熟悉主流AI框架(TensorFlow/PyTorch等)。
3. 具备扎实的计算机网络基础,精通TCP/IP协议,了解分布式系统原理,能配合团队排查跨节点通信故障。
4. 英语CET-4及以上,具备良好的英文技术文档读写能力,能高效对接跨团队技术沟通。
5. 具备强烈的自驱力、探索欲与抗压能力,善于独立思考,能快速适应AI算力运维的业务场景。加分项
1. 持有阿里云ACP、华为云HCIA/HCIP(AI/云计算方向)、NVIDIA相关认证者优先。
2. 有GPU集群运维、大模型训练支撑、MLOps相关实习或项目经历,参与过开源AI项目贡献者优先。
3. 熟悉容器技术(Docker、Kubernetes),有容器化AI平台运维经验,掌握Prometheus/Grafana监控工具者优先。
4. 在AI运维、分布式算力调度相关科研项目或编程竞赛中取得优异成果者优先。
职位类别:计算机软、硬件/互联网/IT
专业要求:工学
单位简介
浙江省健康云有限公司是世界500强杭钢集团 数字科技 板块核心企业,承担浙江健康云 1+11 部署的建设和运营。公司以健康云投建运管为核心支撑,聚焦人工智能+医疗、数据要素 医疗、医疗信创三大创新驱动,为卫健部门、医疗机构及生态伙伴提供 云、网、脑、数 一体化服务。同时,依托国家人工智能应用中试基地(医疗),以高性能AI算力赋能医疗健康与医学科研,助力医疗卫生事业高质量数字化转型。
联系方式
公司地址
上一条:[浙江其它]浙江省健康云有限公司
下一条:[江苏]江苏厚水环保技术有限公司
