負責AI基礎設施的設計、搭建與優(yōu)化,管理機器學習模型全生命周期,確保AI能力從實驗室到規(guī)模化應用的穩(wěn)定性。
設計并實施高效的CI/CD/CT流程,主導技術選型,打造高效研發(fā)平臺。
負責大語言模型(LLM)的部署、監(jiān)控、擴縮容與性能優(yōu)化,構建監(jiān)控告警與應急響應機制,保障AI服務高可用性。
深入研發(fā)流程,識別效率瓶頸,主導自動化體系建設,實現(xiàn)運維工作自動化。
持續(xù)追蹤并引入前沿MLOps及大模型技術(如推理加速、模型量化等),保持技術基礎設施先進性。
跟進開源工具及項目,快速構建實驗環(huán)境進行驗證與試用。
任職要求:
擁有3年左右DevOps/SRE/平臺開發(fā)經(jīng)驗,具備1年以上大語言模型(LLM)部署、運維與性能優(yōu)化經(jīng)驗。
精通容器化技術(Docker)與編排系統(tǒng)(Kubernetes),具備K8s集群運維與故障排查能力。
熟練掌握至少一套CI/CD工具鏈(如Jenkins、GitLab CI等)。
精通監(jiān)控體系(如Prometheus、Grafana等)搭建與應用,熟練使用Python/Shell/Go等語言進行自動化開發(fā)。