崗位需求
? 負(fù)責(zé)主導(dǎo)全生命周期行業(yè)大模型開發(fā)的技術(shù)領(lǐng)袖,兼具戰(zhàn)略規(guī)劃能力(技
術(shù)路線制定/風(fēng)險預(yù)判)與實戰(zhàn)經(jīng)驗(至少 1 個完整大模型項目閉環(huán)經(jīng)
驗),能帶領(lǐng)團隊突破技術(shù)瓶頸;
? 負(fù)責(zé)主導(dǎo)航天領(lǐng)域大模型開發(fā),重點解決航天特色場景下的模型優(yōu)化問
題。
專業(yè)要求:
u 5 年以上大模型架構(gòu)設(shè)計相關(guān)經(jīng)驗,主導(dǎo)過千億參數(shù)級模型從開發(fā)到形
成產(chǎn)品的全流程工作(需提供項目文檔/論文/代碼倉庫等證明),精通
Transformer 架構(gòu)優(yōu)化;
u 精通分布式訓(xùn)練框架(Megatron/DeepSpeed),具備分布式訓(xùn)練與推理
優(yōu)化經(jīng)驗(如混合精度訓(xùn)練、ZeRO 優(yōu)化);
u 精通計算-通信平衡策略、MoE 架構(gòu)在稀疏計算中的應(yīng)用(如Google Switch Transformer 實戰(zhàn)經(jīng)驗);
u 掌握 CoT 技術(shù)的落地方法,掌握 CoT 提示工程和訓(xùn)練方法;
u 具備知識圖譜與大模型融合經(jīng)驗;
u 掌握多模態(tài)大模型(如 Qwen-VL、DeepSeek-V2)的微調(diào)策略;
u 成功應(yīng)用過模型蒸餾技術(shù),如用 GPT-4 生成仿真數(shù)據(jù)訓(xùn)練輕量化模型。