職位概述:
我們正在尋找一位對技術(shù)充滿熱情、細致嚴謹?shù)囊痪€運維工程師。您將成為我們AI基礎設施和平臺穩(wěn)定性的守護者,直接參與維護支持大模型推理與服務的生產(chǎn)環(huán)境。
主要職責:
1、負責客戶算力云主機的一線運維支持與故障響應;
2、負責客戶算力云主機的開通流程與交付管理;
3、負責客戶算力云主機的定制化軟件部署與配置;
4、負責客戶算力云主機的推理鏡像制作與優(yōu)化;
5、負責算力平臺客戶使用情況的統(tǒng)計與分析;
6、負責平臺功能測試與系統(tǒng)驗證;
7、負責平臺客戶培訓與平臺操作指導。
任職要求:
1.學歷與經(jīng)驗:計算機科學或相關??萍耙陨蠈W歷,擁有1-3年Linux系統(tǒng)運維或SRE經(jīng)驗。
2.Linux核心技能:
?精通Linux操作系統(tǒng)原理,熟練進行系統(tǒng)管理、性能調(diào)優(yōu)(CPU/內(nèi)存/磁盤IO/網(wǎng)絡)和故障診斷。
?精通Shell腳本編程,能獨立編寫自動化運維腳本。
3.工具熟練度:
?必須熟練使用Vim進行文本編輯和配置文件修改。
?熟悉Prometheus等監(jiān)控工具。
?熟悉Docker的工具。
4.個人素質(zhì):
?具備強烈的責任心和主動服務意識,面對壓力能保持冷靜。
?擁有出色的邏輯分析能力和問題解決能力,對解決復雜技術(shù)問題有濃厚興趣。
?良好的團隊溝通和協(xié)作能力。
優(yōu)先考慮:
?有基于Linux的容器化平臺運維經(jīng)驗者優(yōu)先。
?有維護GPU/NPU計算集群經(jīng)驗者優(yōu)先。
?熟悉Python編程,能夠使用Python編寫工具腳本或小型測試程序者優(yōu)先。
?對主流大模型(如DeepSeek,Qwen系列)有實際使用或測試經(jīng)驗者優(yōu)先。