崗位職責(zé):
1、負(fù)責(zé)AI算力等智算領(lǐng)域相關(guān)基礎(chǔ)設(shè)施技術(shù)發(fā)展,編寫智算領(lǐng)域技術(shù)發(fā)展戰(zhàn)略和規(guī)劃;
2、負(fù)責(zé)設(shè)計并開發(fā)高性能、可擴(kuò)展的AI基礎(chǔ)設(shè)施架構(gòu),包含組網(wǎng)、存儲、Kubernetes容器集群等GPU計算集群等;
3、負(fù)責(zé)按業(yè)務(wù)場景開發(fā)針對訓(xùn)練、推理等場景的AI基礎(chǔ)架構(gòu)解決方案;
4、負(fù)責(zé)優(yōu)化并運(yùn)營AI基礎(chǔ)設(shè)施及資源平臺,提升AI資源利用率;
5、負(fù)責(zé)與算法團(tuán)隊、技術(shù)開發(fā)團(tuán)隊合作,優(yōu)化模型架構(gòu)與計算資源的匹配效率,為業(yè)務(wù)團(tuán)隊提供底層技術(shù)支持和性能調(diào)優(yōu)方案。
任職要求:
1、本科及以上學(xué)歷,計算機(jī)、電子相關(guān)專業(yè)優(yōu)先;
2、8年以上工作經(jīng)驗,至少5年AI、大模型領(lǐng)域相關(guān)經(jīng)驗;
3、熟悉主流或國產(chǎn)GPU算力體系和技術(shù)架構(gòu),有大規(guī)模分布式系統(tǒng)、云計算平臺實戰(zhàn)經(jīng)驗或智算中心建設(shè)經(jīng)驗者優(yōu)先;
4、深入理解計算機(jī)網(wǎng)絡(luò)(如 TCP/IP、BGP、VxLAN)、分布式存儲系統(tǒng)、GPU硬件等原理;
5、熟悉容器技術(shù)(如 Docker、Kubernetes),掌握至少一種編程語言(如 Python、Go、C++),具備一定的K8s 集群的部署、管理及優(yōu)化經(jīng)驗;
6、熟悉 GPU 計算生態(tài)系統(tǒng)(如 NVIDIA GPU Operator、CUDA 等),具備 GPU 性能調(diào)優(yōu)經(jīng)驗;
7、熟悉大模型技術(shù)相關(guān)理論知識,具備全流程的LLM/多模態(tài)大模型部署應(yīng)用經(jīng)驗,熟悉多機(jī)多卡集群的部署和調(diào)優(yōu);
8、具備較強(qiáng)的問題分析與解決能力,能快速定位并解決復(fù)雜系統(tǒng)問題,善于與團(tuán)隊成員及跨部門協(xié)作,推動項目高效落地。