崗位要求:部署運(yùn)維AI/數(shù)據(jù)平臺(tái),管理K8s集群及GPU服務(wù)器(驅(qū)動(dòng)/CUDAV/監(jiān)控)搭建Prometheus+Grafana監(jiān)控體系及ELK/Loki日志系統(tǒng),設(shè)計(jì)自動(dòng)化監(jiān)控工具排查AI訓(xùn)練任務(wù)異常(GPU利用率低等)及數(shù)據(jù)平臺(tái)故障
必備:3年+K8s生產(chǎn)運(yùn)維經(jīng)驗(yàn),熟悉Calico網(wǎng)絡(luò)熟練搭建Prometheus監(jiān)控告整體系及ELK/Loki日志系統(tǒng)熟悉GPU服務(wù)器運(yùn)維(NVIDIA驅(qū)動(dòng)/CUDA)及Linux/Shell/Ansible
加分項(xiàng):
AI算力平臺(tái)運(yùn)維經(jīng)驗(yàn)
了解RDMAVInfiniBand/RoCE網(wǎng)絡(luò)熟悉Python/Go
軟技能:
強(qiáng)問題定位能力,主動(dòng)溝通,抗壓好學(xué)核心要求項(xiàng):有智算平臺(tái)運(yùn)維監(jiān)控經(jīng)驗(yàn)+K8S運(yùn)維部署