国产中文无码av每日更新在线观看, 亚洲天堂中文字幕一区二区三区免费, 国产口爆吞精在线观视频-黄色国产, 92福利-国内精品久久久久久99,亚洲成AV人A片不卡无码,浪潮AV无码专区,老熟女败火白浆,中文字幕日产av,色情日本免费看大片

更新于 6月25日

GPU服務(wù)器二線運維工程師

2.5-3.5萬
  • 上海徐匯區(qū)
  • 10年以上
  • 碩士
  • 全職
  • 招1人

職位描述

LINUX內(nèi)核調(diào)優(yōu)GPU服務(wù)器運維GPU集群系統(tǒng)運維服務(wù)器運維KubernetesDocker云計算/大數(shù)據(jù)人工智能計算機軟件
崗位職責(zé):
1. 復(fù)雜故障深度診斷
(1) 針對搭載NVIDIA H100/H800/H200、AMD MI300等高端GPU的服務(wù)器,快速定位并修復(fù)硬件級故障(如GPU核心損壞、HBM顯存異常、PCIe鏈路中斷),熟練使用示波器、邏輯分析儀等工具進行電路級分析。
(2)處理CUDA環(huán)境崩潰、驅(qū)動兼容性沖突等軟件問題,優(yōu)化AI框架(PyTorch/TensorFlow)在多GPU集群中的運行穩(wěn)定性。
2. 性能調(diào)優(yōu)與架構(gòu)設(shè)計
(1) 基于AI大模型訓(xùn)練/推理場景,通過NVLink/NVSwitch配置、NCCL通信優(yōu)化、內(nèi)存帶寬調(diào)優(yōu)(如HBM2E/HBM3帶寬綁定)提升集群算力利用率,目標(biāo)達成硬件峰值算力的90%以上。
(2) 設(shè)計混合精度訓(xùn)練方案(FP16/FP8/INT8),結(jié)合Tensor Core特性實現(xiàn)算子級優(yōu)化(如Conv/GEMM稀疏化),降低訓(xùn)練能耗比。
3. 云原生集群管理
(1) 主導(dǎo)Kubernetes GPU資源調(diào)度系統(tǒng)的落地,實現(xiàn)萬卡級集群的故障自愈(如節(jié)點宕機自動遷移、GPU硬件健康狀態(tài)實時監(jiān)控),保障訓(xùn)練任務(wù)中斷率低于0.5%。
(2)開發(fā)自動化工具鏈(Ansible/Terraform),實現(xiàn)服務(wù)器固件升級、驅(qū)動部署、日志采集的全流程無人化。
4. 前沿技術(shù)落地與協(xié)作
(1) 參與Blackwell架構(gòu)GPU(如H200)的預(yù)研測試,驗證其在Transformer模型訓(xùn)練中的性能表現(xiàn),輸出硬件選型建議。
(2) 與芯片設(shè)計團隊協(xié)作,針對國產(chǎn)GPU(如摩爾線程MTT S80)進行驅(qū)動適配和性能調(diào)優(yōu),構(gòu)建國產(chǎn)化算力替代方案。
任職要求:
1. 硬件與系統(tǒng)深度經(jīng)驗
(1) 5年以上GPU服務(wù)器運維或研發(fā)經(jīng)驗,至少主導(dǎo)過3個以上H100/A100集群的部署優(yōu)化項目,熟悉GPU散熱設(shè)計、機房環(huán)動和電源管理(12VHPWR接口兼容性)。
(2) 精通Linux內(nèi)核調(diào)優(yōu)(如NUMA節(jié)點綁定、IRQ親和性),能通過Nsight Compute分析CUDA內(nèi)核性能瓶頸,提出寄存器分配、共享內(nèi)存優(yōu)化方案。
2. 云原生與分布式技術(shù)
(1) 熟練掌握Kubernetes Device Plugin機制,具備GPU虛擬化(如vGPU)和混部場景下的資源隔離經(jīng)驗,曾主導(dǎo)過超大規(guī)模集群(5000+節(jié)點)的穩(wěn)定性保障工作。
(2) 熟悉InfiniBand網(wǎng)絡(luò)配置(如ConnectX-6/7網(wǎng)卡),能通過OPA驅(qū)動優(yōu)化RDMA通信延遲至微秒級,支持分布式訓(xùn)練中的跨節(jié)點數(shù)據(jù)同步。
3. 正向考核適配能力
(1) 具備強結(jié)果導(dǎo)向思維,過往績效中至少3次超額完成技術(shù)指標(biāo)(如集群GPU利用率提升20%以上、故障恢復(fù)時間縮短50%)。
(2) 英語流利(CET-6或等同水平),能獨立對接海外團隊完成技術(shù)方案落地,適應(yīng)全球數(shù)據(jù)中心的短期出差(年均20%)。
4. 加分項
(1) 持有NVIDIA認(rèn)證CUDA工程師(CCE)或Kubernetes認(rèn)證管理員(CKA)資質(zhì)。
(2) 參與過開源項目(如KubeEdge邊緣計算、Horovod分布式訓(xùn)練框架)貢獻者優(yōu)先。
崗位亮點:
? 接觸全球先進的AI算力基礎(chǔ)設(shè)施(如H200 GPU集群)。
? 參與國家級算力網(wǎng)絡(luò)建設(shè)項目,與中科院、高校聯(lián)合攻關(guān)核心技術(shù)。
? 扁平化管理架構(gòu),技術(shù)決策直接影響公司戰(zhàn)略方向。
職業(yè)發(fā)展路徑:
? 技術(shù)專家線:高級工程師→GPU架構(gòu)師→AI基礎(chǔ)設(shè)施總監(jiān)(管理50人+團隊)。
? 業(yè)務(wù)融合線:技術(shù)顧問→行業(yè)解決方案專家(覆蓋金融/醫(yī)療/自動駕駛/環(huán)保等領(lǐng)域)。

工作地點

上海徐匯區(qū)模速空間(SMC)

職位發(fā)布者

高女士/人事經(jīng)理

立即溝通
公司Logo京源環(huán)保
江蘇京源環(huán)保股份有限公司(科創(chuàng)板股票代碼:688096)成立于1999年,以“市場領(lǐng)先的,全能型水處理整體解決方案提供商”為定位,專注于工業(yè)水處理領(lǐng)域,主要向大型工業(yè)企業(yè)和工業(yè)園區(qū)提供專業(yè)化的與水環(huán)境相關(guān)的投融資、研發(fā)設(shè)計、裝備制造、系統(tǒng)集成、工程總承包及水務(wù)運營等業(yè)務(wù),具有環(huán)保水處理全產(chǎn)業(yè)鏈的綜合服務(wù)能力。公司是高新技術(shù)企業(yè),擁有一支以“江蘇省工程技術(shù)研究中心”、“江蘇省企業(yè)技術(shù)中心”、“江蘇省研究生工作站”為載體的環(huán)保水處理科研技術(shù)隊伍。公司員工中一半以上為研發(fā)、技術(shù)人員,大多具有豐富的工業(yè)水處理研發(fā)技術(shù)工作經(jīng)驗。公司在關(guān)鍵技術(shù)自主開發(fā)的同時,也與清華蘇州環(huán)境創(chuàng)新研究院、中科院生態(tài)環(huán)境研究中心等國內(nèi)權(quán)威科研機構(gòu)開展產(chǎn)學(xué)研合作,實現(xiàn)科研資源最大化整合。公司堅持自主創(chuàng)新,現(xiàn)已擁有12項自主核心技術(shù)和98項知識產(chǎn)權(quán),其中磁混凝技術(shù)、電子絮凝技術(shù)和零排放污水處理技術(shù)被認(rèn)定為“國際先進”技術(shù),“電催化氧化”技術(shù)被認(rèn)定為“國內(nèi)領(lǐng)先”技術(shù)。公司零排放裝備被江蘇省工業(yè)和信息化廳認(rèn)定為江蘇省首臺(套)重大裝備。公司是中國環(huán)保產(chǎn)業(yè)協(xié)會會員、中國環(huán)境科學(xué)學(xué)會理事單位、南通市環(huán)保產(chǎn)業(yè)協(xié)會會長單位。近年來公司先后獲得江蘇省服務(wù)型制造示范企業(yè)、江蘇省生產(chǎn)性服務(wù)業(yè)領(lǐng)軍企業(yè)、南通市十大綠色發(fā)展示范民營企業(yè)、南通市先進集體等榮譽稱號。深耕工業(yè)水處理領(lǐng)域二十年來,公司業(yè)務(wù)布局全國,并延伸至“一帶一路”海外市場,已在電力、化工、冶金、電鍍、印染、制藥的行業(yè)領(lǐng)域完成超過400個水處理工程案例。放眼未來,京源將秉承“建設(shè)生態(tài)文明,承擔(dān)社會責(zé)任”的企業(yè)發(fā)展理念,通過不斷技術(shù)創(chuàng)新和產(chǎn)業(yè)鏈價值延伸,為中國的水環(huán)境治理及生態(tài)環(huán)境事業(yè)作出積極貢獻,并在全球視野中彰顯中國環(huán)保行業(yè)的創(chuàng)新力量。
公司主頁