職位介紹
崗位職責(zé):
1.處理常見英偉達(dá)GPU服務(wù)器故障,如 顯卡報(bào)錯(cuò)、NVLink通信異常、電源模塊故障、散熱問題 等。
2.按技術(shù)維修規(guī)范操作,負(fù)責(zé)主流廠商(包括不限于超微、華碩、技嘉、浪潮,華三等)GPU服務(wù)器的現(xiàn)場(chǎng)硬件檢測(cè)、故障診斷及維修,或遠(yuǎn)程技術(shù)指導(dǎo)。
3.承擔(dān) GPU 服務(wù)器的安裝、調(diào)試、上架、升級(jí)、改配工作,并完成相應(yīng)的軟件適配,包括 BIOS / 固件更新、驅(qū)動(dòng)程序安裝與調(diào)試等
4.撰寫維修報(bào)告,記錄故障案例,協(xié)助團(tuán)隊(duì)優(yōu)化維修流程,提高維修效率,降低返修率。
5.維護(hù)現(xiàn)場(chǎng)客戶關(guān)系及滿意度。
任職要求:
1.計(jì)算機(jī)、電子工程、通信等相關(guān)專業(yè),??萍耙陨蠈W(xué)歷
2.熟悉 NVIDIA/AMD 主流顯卡架構(gòu)(如 Hopper/Ada Lovelace 等)者優(yōu)先考慮
3.一年以上阿里、字節(jié)客戶處的液冷服務(wù)器維修經(jīng)驗(yàn)或者GPU服務(wù)器維修經(jīng)驗(yàn)
4.熟練使用 Linux 命令行,能夠運(yùn)用自動(dòng)化工具(Ansible/Kubernetes 等)進(jìn)行服務(wù)器管理,掌握監(jiān)控平臺(tái)(Prometheus 等)的配置與使用;熟悉服務(wù)器 BMC 管理(IPMI/RedFish);
5.熟悉集群管理工具(Slurm 等)的操作;其他信息行業(yè)要求:計(jì)算機(jī)硬件,IT服務(wù)