AI智能运维工程师
2-3万元/月
更新 2025-12-16 23:01:35
浏览 353
职位详情
运维工程师
5-10年
岗位职责:
1、智能化运维体系构建:设计基于AI驱动的智算中心监控、调度与资源管理方案,实现对异构算力(CPU/GPU/NPU)的自动化运维及能效优化。
2、AIOps技术落地:研发智能故障识别与资源调度算法模型,融合机器学习/深度学习手段提升异常发现与根因分析效率,降低故障恢复周期(MTTR)。
3、智能运维工具落地:实施智能运维工具链(如自动部署、智能巡检平台),推进运维流程标准化并提高整体执行效率。
任职要求:
1、技术基础:了解x86/ARM架构特点,熟悉NVIDIA/昇腾等AI加速芯片,掌握Kubernetes容器化技术及Slurm/PBS集群调度机制。
2、AI运维经验:具备3年以上智能运维开发经历,拥有时序预测、异常检测类算法(如LSTM/IsolationForest)实际应用案例,熟练使用TensorFlow/PyTorch框架。
3、系统运维能力:深入理解Linux内核机制,擅长Bash/Python脚本编写,熟练运用Prometheus/Grafana监控生态及Ansible自动化工具,具备Ceph等分布式存储调优背景。
4、项目经验:曾参与万人规模服务器集群或智算中心运维项目,主导过智能故障自愈或资源调度系统设计者优先考虑。
5、技术视野:持续关注AIOps与云原生技术发展方向,有OpenTelemetry等行业标准实践经历者优先。
6、团队协作:具备将技术逻辑转化为业务表达的能力;抗压性强,可适应7×24小时应急响应工作模式。
1、智能化运维体系构建:设计基于AI驱动的智算中心监控、调度与资源管理方案,实现对异构算力(CPU/GPU/NPU)的自动化运维及能效优化。
2、AIOps技术落地:研发智能故障识别与资源调度算法模型,融合机器学习/深度学习手段提升异常发现与根因分析效率,降低故障恢复周期(MTTR)。
3、智能运维工具落地:实施智能运维工具链(如自动部署、智能巡检平台),推进运维流程标准化并提高整体执行效率。
任职要求:
1、技术基础:了解x86/ARM架构特点,熟悉NVIDIA/昇腾等AI加速芯片,掌握Kubernetes容器化技术及Slurm/PBS集群调度机制。
2、AI运维经验:具备3年以上智能运维开发经历,拥有时序预测、异常检测类算法(如LSTM/IsolationForest)实际应用案例,熟练使用TensorFlow/PyTorch框架。
3、系统运维能力:深入理解Linux内核机制,擅长Bash/Python脚本编写,熟练运用Prometheus/Grafana监控生态及Ansible自动化工具,具备Ceph等分布式存储调优背景。
4、项目经验:曾参与万人规模服务器集群或智算中心运维项目,主导过智能故障自愈或资源调度系统设计者优先考虑。
5、技术视野:持续关注AIOps与云原生技术发展方向,有OpenTelemetry等行业标准实践经历者优先。
6、团队协作:具备将技术逻辑转化为业务表达的能力;抗压性强,可适应7×24小时应急响应工作模式。
相似职位
很抱歉,暂无相似职位!