【職位描述】
1.基于云原生技術(shù)體系(如 Kubernetes、容器等)構(gòu)建高可用、高擴(kuò)展性的平臺(tái)基礎(chǔ)設(shè)施;
2.推進(jìn)平臺(tái)架構(gòu)演進(jìn)與工程體系建設(shè),提升模塊解耦性、可維護(hù)性與系統(tǒng)穩(wěn)定性;
3.協(xié)同模型訓(xùn)練、推理服務(wù)、資源調(diào)度系統(tǒng)等上下游模塊,推動(dòng)平臺(tái)能力持續(xù)完善與集成閉環(huán);
4.優(yōu)化平臺(tái)的使用體驗(yàn)與開發(fā)效率,持續(xù)提升平臺(tái)產(chǎn)品化水平與工程質(zhì)量。
5.搭建通用workflow數(shù)據(jù)鏈路平臺(tái),支持業(yè)務(wù)需求迭代。
【任職要求】
1.熟練掌握 Go/Python 語言,具備扎實(shí)的系統(tǒng)開發(fā)能力與良好的工程規(guī)范;
2.熟悉 Kubernetes 原理與生態(tài)體系,具備 CRD、Controller、Operator 等實(shí)際開發(fā)經(jīng)驗(yàn);
3.有使用或集成 Argo,Kueue、Volcano、Koordinator 等 Kubernetes 調(diào)度與資源管理框架經(jīng)驗(yàn),了解隊(duì)列管理、GPU 資源隔離、任務(wù)調(diào)度策略等常見場(chǎng)景者優(yōu)先;
4.有訓(xùn)練/推理平臺(tái)、機(jī)器學(xué)習(xí)平臺(tái)、MLOps ,Workflow工作流系統(tǒng)等相關(guān)平臺(tái)開發(fā)經(jīng)驗(yàn)者優(yōu)先;
5.具備良好的系統(tǒng)設(shè)計(jì)能力,能獨(dú)立承擔(dān)模塊設(shè)計(jì)與編碼落地,推動(dòng)平臺(tái)能力標(biāo)準(zhǔn)化與工程化演進(jìn)。