崗位描述
1. 負責(zé) AI 領(lǐng)域 MaaS(模型即服務(wù))平臺整體技術(shù)架構(gòu)設(shè)計,聚焦訓(xùn)推一體能力建設(shè),主導(dǎo)訓(xùn)練框架、推理引擎、算力調(diào)度、模型管理等核心模塊的架構(gòu)規(guī)劃與技術(shù)選型;
2. 設(shè)計分布式訓(xùn)練系統(tǒng)架構(gòu),優(yōu)化大規(guī)模并行訓(xùn)練(數(shù)據(jù)并行、模型并行、流水線并行)方案,解決超大規(guī)模模型(如 LLM、多模態(tài)模型)訓(xùn)練中的性能瓶頸與資源調(diào)度問題;
3. 負責(zé)推理服務(wù)架構(gòu)設(shè)計,構(gòu)建低延遲、高吞吐的模型推理集群,實現(xiàn)動態(tài)擴縮容、負載均衡、模型版本管理與 A/B 測試能力,支持在線推理、批量推理等多場景;
4. 設(shè)計算力資源管理與調(diào)度架構(gòu),實現(xiàn) GPU/TPU 等異構(gòu)算力的池化管理、資源隔離、彈性分配與利用率優(yōu)化,支持算力按需分配、共享與計費計量;
5. 主導(dǎo)平臺高可用架構(gòu)設(shè)計,保障訓(xùn)練任務(wù)容錯性、推理服務(wù)連續(xù)性,解決分布式系統(tǒng)中的一致性、數(shù)據(jù)可靠性、故障恢復(fù)等關(guān)鍵問題;
6. 設(shè)計模型生命周期管理架構(gòu),整合數(shù)據(jù)預(yù)處理、模型訓(xùn)練、評估、部署、監(jiān)控全流程,構(gòu)建可復(fù)用的 AI 工作流引擎與自動化流水線;
7. 推動架構(gòu)落地,制定技術(shù)規(guī)范與接口標準,指導(dǎo)開發(fā)團隊實現(xiàn)核心模塊,參與關(guān)鍵代碼評審,解決架構(gòu)層面的技術(shù)難題;
8. 跟蹤 AI 框架(TensorFlow/PyTorch/MXNet)、分布式計算(Ray/Spark)、云原生(Kubernetes/Operator)等技術(shù)演進,引入先進架構(gòu)理念優(yōu)化平臺性能與擴展性。
任職要求
1. 計算機 相關(guān)專業(yè)本科及以上學(xué)歷,8 年以上技術(shù)研發(fā)經(jīng)驗,其中 1 年以上 AI 平臺(訓(xùn)推一體 / 算力管理)架構(gòu)設(shè)計經(jīng)驗,主導(dǎo)過至少 1 個大規(guī)模 AI MaaS 平臺從 0 到 1 的架構(gòu)落地;
2. 深入理解深度學(xué)習(xí)訓(xùn)練與推理原理,精通至少一種主流 AI 框架(TensorFlow/PyTorch)的底層機制,具備分布式訓(xùn)練框架(如 Megatron-LM、DeepSpeed)二次開發(fā)或架構(gòu)優(yōu)化經(jīng)驗;
3. 精通分布式系統(tǒng)設(shè)計,熟悉分布式一致性協(xié)議(Paxos/Raft)、任務(wù)調(diào)度算法(Gang Scheduling、Fair Scheduling),有大規(guī)模集群(千卡級以上 GPU)資源管理與調(diào)度經(jīng)驗;
4. 精通云原生技術(shù)棧,深入理解 Kubernetes 核心原理,有基于 K8s 構(gòu)建 AI 平臺的實戰(zhàn)經(jīng)驗,熟悉 Kubeflow、Volcano 等 AI 原生調(diào)度框架者優(yōu)先;
5. 熟悉 GPU 虛擬化(vGPU/MIG)、容器化部署、異構(gòu)計算架構(gòu),具備 GPU 算力性能調(diào)優(yōu)、資源利用率優(yōu)化實戰(zhàn)經(jīng)驗;
6. 深入理解存儲系統(tǒng)架構(gòu),熟悉分布式文件系統(tǒng)(如 Ceph、GlusterFS)、對象存儲(S3 兼容)在 AI 訓(xùn)練場景的應(yīng)用與優(yōu)化;
7. 具備良好的技術(shù)文檔編寫能力,能輸出清晰的架構(gòu)設(shè)計方案、技術(shù)白皮書、性能優(yōu)化報告等文檔;
8. 具備較強的問題拆解與攻堅能力,有處理大規(guī)模 AI 集群故障、性能瓶頸的實戰(zhàn)經(jīng)驗,良好的跨團隊技術(shù)溝通與推動能力。