1、負責智算中心項目的交付實施管理,根據(jù)售前頂設方案與項目合同,制定詳盡的交付實施計劃,明確項目范圍、里程碑、資源需求與風險預案,確保項目交付目標清晰、路徑可行。
2、牽頭智算中心基礎設施的部署與集成,主導算力集群(GPU/ASIC等)、高速網(wǎng)絡(InfiniBand/RoCE等)、存儲系統(tǒng)、制冷與供電等設施的現(xiàn)場實施、硬件安裝、系統(tǒng)聯(lián)調(diào)與集成測試,確保整體架構(gòu)按設計落地。
3、負責智算平臺軟件與調(diào)度系統(tǒng)的部署與配置,完成操作系統(tǒng)、容器平臺、作業(yè)調(diào)度系統(tǒng)(如Slurm/Kubernetes)、分布式存儲、AI框架及監(jiān)控運維平臺的安裝、配置與優(yōu)化,實現(xiàn)算力資源的統(tǒng)一管理與高效調(diào)度。
4、主導智算集群的性能調(diào)優(yōu)與穩(wěn)定性保障,對交付上線的智算系統(tǒng)進行深度性能測試與瓶頸分析,包括但不限于算力效率、網(wǎng)絡帶寬與延遲、存儲IO等,并實施針對性調(diào)優(yōu),確保系統(tǒng)達到或超過設計指標。
5、負責交付過程中的問題定位與解決,快速響應并處理在部署、聯(lián)調(diào)及試運行階段出現(xiàn)的各類硬件、軟件及網(wǎng)絡問題,協(xié)調(diào)內(nèi)外部技術(shù)資源進行根因分析并推動解決,保障項目關(guān)鍵節(jié)點按時達成。
6、負責項目交付文檔的編寫與移交,整理輸出包括實施計劃、部署圖紙、配置清單、測試報告、運維手冊及培訓資料等全套交付文檔,并完成對客戶運維團隊的系統(tǒng)移交與技術(shù)培訓。
7、協(xié)調(diào)與管理交付項目干系人,與客戶IT/運維團隊、內(nèi)部售前/研發(fā)部門、以及硬件/軟件供應商保持密切溝通,管理客戶期望,匯報項目進度,協(xié)同解決交付過程中的各類問題與變更需求。
【智算網(wǎng)絡架構(gòu)與集成能力】
1、具備智算中心整體網(wǎng)絡架構(gòu)的規(guī)劃與設計能力,精通高性能計算(智算)與通用計算網(wǎng)絡的融合方案。
2、熟練掌握數(shù)據(jù)中心級交換機(智算/通算)的自動化腳本編寫、獨立調(diào)試及全網(wǎng)聯(lián)合調(diào)試,具備復雜網(wǎng)絡環(huán)境下的問題定位與解決能力。
3、能夠協(xié)同服務器團隊開展網(wǎng)絡性能測試與流量調(diào)優(yōu),具備端到端性能分析與優(yōu)化經(jīng)驗,確保網(wǎng)絡低延遲、高吞吐。
4、擁有實際智算/通算網(wǎng)絡項目的實施落地經(jīng)驗,能夠獨立承擔從規(guī)劃、部署到驗收的全流程網(wǎng)絡集成工作。
5、具備HCIE、CCIE或同等級別數(shù)通認證者優(yōu)先。
【智算主機與平臺工程能力】
1、熟悉智算及通用服務器設備的初始化、系統(tǒng)部署及標準化配置流程,具備大規(guī)模節(jié)點交付與管理經(jīng)驗。
2、掌握智算服務器在BIOS、固件、驅(qū)動及操作系統(tǒng)層面的深度參數(shù)調(diào)優(yōu),具備性能瓶頸識別與系統(tǒng)級優(yōu)化能力。
3、精通GPU計算軟件棧(如CUDA、conda環(huán)境)及容器化技術(shù)(Docker、Kubernetes),能夠獨立完成AI訓練/推理平臺的搭建與維護。
4、具備智算/通算集群實際部署經(jīng)驗,熟悉從硬件上架、系統(tǒng)配置到應用交付的完整流程。
5、持有RHCE或同類Linux系統(tǒng)級別認證者優(yōu)先。
【工作經(jīng)驗】
1、智算/數(shù)據(jù)中心項目實施經(jīng)驗:具備3年以上智算中心、超算中心或大型數(shù)據(jù)中心項目的現(xiàn)場交付、系統(tǒng)集成或?qū)嵤┻\維經(jīng)驗,主導或核心參與過至少2個從零到一建設的智算集群交付項目,并成功上線穩(wěn)定運行。
2、智算網(wǎng)絡部署與調(diào)優(yōu)經(jīng)驗:擁有豐富的智算高速網(wǎng)絡(如InfiniBand、RoCEv2)的部署、調(diào)試與排障經(jīng)驗。熟練掌握主流交換機的腳本編寫、配置與管理,并能獨立完成網(wǎng)絡單點調(diào)試、全網(wǎng)聯(lián)調(diào)及與服務器的協(xié)同打流測試與性能調(diào)優(yōu)。
3、智算服務器與平臺部署經(jīng)驗:具備豐富的智算服務器(如NVIDIA DGX/HGX系列、或主流GPU服務器)的硬件初始化、操作系統(tǒng)部署、固件/驅(qū)動升級及深度參數(shù)調(diào)優(yōu)經(jīng)驗。精通CUDA、容器(Docker)、容器編排(Kubernetes)及作業(yè)調(diào)度系統(tǒng)在智算環(huán)境下的部署、配置與優(yōu)化。