崗位職責:
1、負責AI算力等智算領域相關基礎設施技術發(fā)展,編寫智算領域技術發(fā)展戰(zhàn)略和規(guī)劃;
2、負責設計并開發(fā)高性能、可擴展的AI基礎設施架構,包含組網、存儲、Kubernetes容器集群等GPU計算集群等;
3、負責按業(yè)務場景開發(fā)針對訓練、推理等場景的AI基礎架構解決方案;
4、負責優(yōu)化并運營AI基礎設施及資源平臺,提升AI資源利用率;
5、負責與算法團隊、技術開發(fā)團隊合作,優(yōu)化模型架構與計算資源的匹配效率,為業(yè)務團隊提供底層技術支持和性能調優(yōu)方案。
任職要求:
1、本科及以上學歷,計算機、電子相關專業(yè)優(yōu)先;
2、8年以上工作經驗,至少5年AI、大模型領域相關經驗;
3、熟悉主流或國產GPU算力體系和技術架構,有大規(guī)模分布式系統(tǒng)、云計算平臺實戰(zhàn)經驗或智算中心建設經驗者優(yōu)先;
4、深入理解計算機網絡(如 TCP/IP、BGP、VxLAN)、分布式存儲系統(tǒng)、GPU硬件等原理;
5、熟悉容器技術(如 Docker、Kubernetes),掌握至少一種編程語言(如 Python、Go、C++),具備一定的K8s 集群的部署、管理及優(yōu)化經驗;
6、熟悉 GPU 計算生態(tài)系統(tǒng)(如 NVIDIA GPU Operator、CUDA 等),具備 GPU 性能調優(yōu)經驗;
7、熟悉大模型技術相關理論知識,具備全流程的LLM/多模態(tài)大模型部署應用經驗,熟悉多機多卡集群的部署和調優(yōu);
8、具備較強的問題分析與解決能力,能快速定位并解決復雜系統(tǒng)問題,善于與團隊成員及跨部門協(xié)作,推動項目高效落地。