核心職責(zé)
1. 大模型國產(chǎn)GPU適配與驗(yàn)證
o 主導(dǎo)大模型(LLaMA、GLM、Baichuan等主流架構(gòu))在國產(chǎn)GPU平臺(tái)(如沐曦、壁仞、海光等) 的遷移適配、性能調(diào)優(yōu)與穩(wěn)定性驗(yàn)證。
o 設(shè)計(jì)并實(shí)施國產(chǎn)硬件環(huán)境下的模型訓(xùn)練/推理加速方案,解決兼容性問題。
2. 優(yōu)化跨異構(gòu)GPU環(huán)境(NVIDIA+國產(chǎn)GPU混布)的分布式訓(xùn)練/推理任務(wù)調(diào)度,解決多架構(gòu)設(shè)備間的通信瓶頸與負(fù)載均衡問題。
3. 訓(xùn)練與推理框架優(yōu)化
o 優(yōu)化主流訓(xùn)練框架(PyTorch、DeepSpeed、Megatron-LM)及推理框架(vLLM、TensorRT-LLM)在分布式環(huán)境下的性能與資源利用率。
o 開發(fā)高性能算子、混合精度策略、顯存優(yōu)化技術(shù),提升千億級(jí)模型的訓(xùn)練/推理效率。
4. 大模型技術(shù)攻關(guān)
o 參與大模型預(yù)訓(xùn)練、指令微調(diào)、RLHF等全流程研發(fā),解決長文本建模、多模態(tài)對齊等關(guān)鍵技術(shù)問題。
5. 工程化落地支持(加分項(xiàng)方向)
o 構(gòu)建基于 Kubernetes 的自動(dòng)化訓(xùn)練/推理平臺(tái),實(shí)現(xiàn)資源調(diào)度、彈性伸縮與運(yùn)維監(jiān)控。
o 設(shè)計(jì)云原生(Cloud-Native)的大模型服務(wù)架構(gòu),支持高并發(fā)、低延遲的模型部署。
任職要求
· 學(xué)歷背景: 計(jì)算機(jī)科學(xué)、人工智能、數(shù)學(xué)等相關(guān)專業(yè) 本科及以上學(xué)歷。
· 硬性能力:
o 具備 國產(chǎn)GPU平臺(tái)(昇騰/寒武紀(jì)/海光等)的大模型適配、調(diào)優(yōu)與驗(yàn)證經(jīng)驗(yàn),熟悉硬件架構(gòu)與驅(qū)動(dòng)生態(tài)。
o 精通至少一種主流大模型訓(xùn)練框架(DeepSpeed、Megatron-LM、ColossalAI)及推理優(yōu)化技術(shù)(量化、動(dòng)態(tài)批處理、KV-Cache優(yōu)化等)。
o 扎實(shí)的Python/C++編程能力,熟悉Linux開發(fā)環(huán)境與分布式系統(tǒng)原理。
· 加分項(xiàng)(滿足任一即可):
o 熟悉 容器化技術(shù)(Docker)及Kubernetes編排體系,有大規(guī)模訓(xùn)練集群管理經(jīng)驗(yàn)。
o 具備云計(jì)算平臺(tái)(AWS/Azure/阿里云/騰訊云)AI服務(wù)開發(fā)經(jīng)驗(yàn),熟悉Serverless、GPU虛擬化等技術(shù)。
o 發(fā)表過LLM相關(guān)頂會(huì)論文(ACL、NeurIPS、ICLR等)或開源項(xiàng)目核心貢獻(xiàn)者。
· 軟性素質(zhì):
o 具備較強(qiáng)的技術(shù)攻關(guān)能力,能獨(dú)立分析并解決復(fù)雜系統(tǒng)問題。
o 良好的團(tuán)隊(duì)協(xié)作與溝通能力,對技術(shù)前沿有敏銳洞察力。
長期駐場亞信科技