工作職責:
1、GPU服務器技術(shù)支持
- 7x24快速響應:對英偉達GPU服務器及集群(包括單機、顯卡、主板、電源模塊、網(wǎng)絡層面)出現(xiàn)的硬件、軟件、性能故障進行快速響應、精準診斷和高效修復
- 應急處理: 制定和執(zhí)行大規(guī)模集群故障的應急預案,在重大故障發(fā)生時能迅速組織資源進行恢復,最大限度減少停機時間和對客戶業(yè)務的影響
2、日常運維與監(jiān)控
- 負責英偉達GPU服務器(如DGX系列/HGX系列/自研服務器)及集群(NVLink, InfiniBand/Ethernet網(wǎng)絡)的安裝、配置、監(jiān)控、維護和升級
- 使用專業(yè)工具(如DCGM, NVIDIA System Management, Prometheus, Grafana, Zabbix, ELK等)監(jiān)控集群健康狀態(tài)、性能指標(GPU利用率、顯存、溫度、功耗、網(wǎng)絡帶寬/延遲等),及時發(fā)現(xiàn)潛在問題
3、技術(shù)協(xié)同
- 與硬件供應商(如NVIDIA, OEM廠商)、IDC團隊、網(wǎng)絡團隊、研發(fā)團隊及客戶技術(shù)支持團隊緊密協(xié)作,解決復雜問題
任職資格:
1、基礎(chǔ)條件
- 計算機/電子工程本科及以上學歷,3年以上大型數(shù)據(jù)中心服務器(尤其是英偉達GPU服務器)運維經(jīng)驗
- 持有NVIDIA認證工程師資質(zhì)(如NCA/NCP)者優(yōu)先,熟悉Hopper架構(gòu)與SXM模塊化設計原理
- 具有處理大規(guī)模(百卡/千卡級別以上優(yōu)先)GPU集群實際運維和故障處理經(jīng)驗
- 熟悉服務器硬件(CPU, 內(nèi)存, 存儲, RAID, PSU)的故障診斷與更換
2、優(yōu)先考慮
- 有管理NVIDIA DGX SuperPOD或類似大規(guī)模參考架構(gòu)集群的經(jīng)驗
- 擁有NVIDIA相關(guān)認證(如NVIDIA Certified Associate - Data Center Deployment, NVIDIA Certified Professional - Data Center)
- 頭部互聯(lián)網(wǎng)公司或大型公有云數(shù)據(jù)中心運維背景