崗位職責
1. 負責深度學習模型訓練框架的研發(fā)與優(yōu)化,支持大規(guī)模分布式訓練任務(wù)(如多機多卡并行、混合精度訓練);
2. 設(shè)計和實現(xiàn)高并發(fā)、低延遲的模型線上推理服務(wù),優(yōu)化服務(wù)端性能(QPS/延遲/資源占用);
3. 參與AI框架核心模塊開發(fā)(如自定義算子、自動微分、計算圖優(yōu)化),深入理解PyTorch等框架的運行機制;
4. 構(gòu)建和維護高效的Linux開發(fā)環(huán)境,設(shè)計自動化工具鏈(編譯/部署/監(jiān)控),保障模型訓練與服務(wù)的穩(wěn)定性。
任職要求
1. 技術(shù)基礎(chǔ):
熟練掌握C/C++或Python,熟悉多線程編程(如鎖、線程池、協(xié)程)、常用設(shè)計模式(工廠/單例/觀察者);
熟悉Linux開發(fā)環(huán)境,熟練使用Shell腳本、性能分析工具(perf/strace/gdb)、系統(tǒng)級調(diào)試;
熟悉深度學習框架(PyTorch/TensorFlow),了解其核心機制(如動態(tài)圖、梯度計算、CUDA加速);
2. 工作經(jīng)驗(滿足其一即可):
模型線上服務(wù)方向;
有模型部署經(jīng)驗,熟悉TensorRT/ONNX/Triton等推理框架,掌握性能優(yōu)化技術(shù)(量化/剪枝/動態(tài)批處理);
熟悉高并發(fā)服務(wù)開發(fā)(gRPC/RESTful API),具備分布式系統(tǒng)設(shè)計能力(負載均衡/容災(zāi))。
模型訓練方向:
有大規(guī)模分布式訓練經(jīng)驗,熟悉DDP/Horovod等框架,掌握顯存優(yōu)化(梯度檢查點/混合精度);
熟悉數(shù)據(jù)處理流水線優(yōu)化(Dataset/DataLoader)、訓練任務(wù)調(diào)度(Kubernetes/Slurm)。
3. 加分項:
參與過開源深度學習框架(PyTorch/TensorFlow)的源碼貢獻;
有CUDA編程經(jīng)驗,或內(nèi)核級性能調(diào)優(yōu)案例(如自定義算子、內(nèi)存池設(shè)計);
熟悉容器化技術(shù)(Docker/K8s)、CI/CD工具鏈。