崗位職責(zé):
1、協(xié)助項(xiàng)目經(jīng)理進(jìn)行項(xiàng)目計(jì)劃制定和執(zhí)行,負(fù)責(zé) AI 平臺(tái)規(guī)劃、安裝、部署、測(cè)試,保障系統(tǒng)穩(wěn)定高效運(yùn)行;
2、負(fù)責(zé) Kubernetes 私有集群搭建、運(yùn)維、監(jiān)控、性能調(diào)優(yōu)及高可用保障;
3、處理 Kubernetes 集群的疑難問(wèn)題,包括網(wǎng)絡(luò)(CNI)、存儲(chǔ)(CSI)、安全(RBAC/OPA)等方向的故障排查;
4、 定期更新和升級(jí) AI 系統(tǒng),解決系統(tǒng)中的問(wèn)題,提高系統(tǒng)的性能;
5、 編寫(xiě)項(xiàng)目文檔,包括需求文檔、測(cè)試文檔、用戶(hù)手冊(cè)等;配合售后為客戶(hù)提供 AI 平臺(tái)技術(shù)支持與使用指導(dǎo)。
任職要求:
1、1年及以上相關(guān)工作經(jīng)驗(yàn)。計(jì)算機(jī)、人工智能、數(shù)據(jù)科學(xué)等相關(guān)專(zhuān)業(yè)專(zhuān)科及以上學(xué)歷。
2、熟練掌握容器和K8S技術(shù)。
3、熟悉 Kubernetes 生態(tài)相關(guān)技術(shù)(如 Service Mesh、harbor、Helm、kubekey、PV/PVC、Hami、Prometheus 等)。
4、了解Nvidia / 國(guó)產(chǎn)GPU卡,監(jiān)控、調(diào)度等相關(guān)技術(shù)。
5、有大模型訓(xùn)練及推理工作經(jīng)驗(yàn)的優(yōu)先。
6、 邏輯清晰,溝通協(xié)作能力強(qiáng),能承受多項(xiàng)目并行交付壓力。
駐場(chǎng)地點(diǎn):北京六環(huán)外
福利:雙休、五險(xiǎn)一金、帶薪年假、商業(yè)意外險(xiǎn)