首页 > 上海 全职 > 职位详细
说明:

此信息由前程无忧(51JOB)审核并发布(查看原发布网址),应届生求职网转载该信息只是出于传递更多就业招聘信息,促进大学生就业的目的。如您对此转载信息有疑义,请与原信息发布者前程无忧(51JOB)核实,并请同时联系本站处理该转载信息。

[上海]人工智能公司&人工智能研究院

职位:集群调度系统研究员/研究工程师(上海)
发布时间:2024-12-23
工作地点:上海
信息来源:前程无忧(51JOB)
职位类型:全职
职位描述
职能类别:算法工程师
学历要求:博士
专业要求:人工智能、计算机、电子信息、软件工程、通信工程、网络安全等相关专业
岗位职责:
1. 领导万卡规模 AI Infra 集群调度系统的架构设计与研发,优化系统性能,为大规模训练和推理业务提供高效算力调度。
2. 基于 Kubernetes 容器平台,设计并研发创新的任务控制器和调度器,实现分布式训练、高可用推理和混部编排调度,提升集群的容灾能力、资源的利用率和任务的执行效率。
3. 负责容器运行时、高性能存储、异构芯片插件和高性能网络插件在 Kubernetes 架构中的适配、开发和优化,推动集群调度技术的前沿发展。
应聘资格要求:
1. 博士学历,计算机科学、机器学习、人工智能或相关领域
2. 具有 1 年以上在 Kubernetes 容器平台或高性能集群研发领域的工作经验,有***学术会议或期刊成果发表
3. 熟练掌握至少一门编程语言如 Golang/Python/C++/C,具备独立承担复杂系统开发的能力
4. 深入理解 Docker/Containerd、Kubernetes 及其生态系统,熟悉 Kubeflow, Volcano 等周边组件。
5. 熟练掌握系统可观测性工具(如 Grafana、Prometheus),对建立高可靠性系统有深刻见解。
6. 具有出色的责任心、团队领导力、沟通协作能力和自驱学习能力
加分项:
1. 具有昇腾 AI 处理器集群调度经验,或在计算机体系结构领域有显著科研成果。
2. 有大规模集群 SRE 和运维优化工作经验,对大规模系统运维有深入理解和实践经验。
3. 在高性能网络、大数据存储架构的研发方面有实际项目经验,展现出卓越的技术洞察力和创新能力。 公司简要介绍:
公司名称:人工智能公司&人工智能研究院
公司类型:国企
公司介绍:中电信人工智能科技(北京)有限公司(以下简称“人工智能公司”)是中国电信开展人工智能业务的科技型、能力型、平台型专业公司,以央企领先、世界一流为目标,强化科技攻关,对内对外提供高质量的人工智能产品与平台服务,积极赋能千行百业,助力数字经济发展。人工智能公司以成为领先的通用人工智能服务提供商为愿景,以发挥央企在AI领域的主力军作用,成为国家战略科技力量为使命,承担央企责任,强化科技攻关。 中国电信股份有限公司人工智能研究院(上海)(以下简称“TeleAI”)由中国电信集团CTO、首席科学家李学龙教授发起并组建。TeleAI面向国家战略需求和未来人工智能发展趋势,结合中国电信在算力、数据、应用场景及通信等多方面的优势,围绕大模型、具身智能、AIGC、AI Infra、智传网等方向开展基础研究、技术攻关和应用落地,旨在打造人工智能研发与产业转化标杆性平台,通过跨学科、跨领域的协同创新,汇聚人才和团队,形成产学研用一体化的创新生态,以人工智能新质生产力赋能千行百业,以科技创新引领现代化产业体系建设。

登录打开APP 查看全部

上一条:[上海]人工智能公司&人工智能研究院

下一条:[上海]美国史丹利(上海)管理有限公司

申请该职位 收藏该职位