崗位職責(zé):
1、負(fù)責(zé)Al Infra領(lǐng)域核心技術(shù)攻堅(jiān),設(shè)計(jì)語(yǔ)言/視覺(jué)/多模態(tài)大模型訓(xùn)練及推理的技術(shù)架構(gòu)和實(shí)現(xiàn)方案,更高效的實(shí)現(xiàn)模型訓(xùn)練和推理;
2、結(jié)合異構(gòu)硬件(如CPU/GPU/NPU)的特性,通過(guò)算子優(yōu)化、異步并發(fā)、I/O優(yōu)化等方式減少計(jì)算耗時(shí),優(yōu)化計(jì)算效率;
3、根據(jù)AI模型的發(fā)展趨勢(shì)(如長(zhǎng)序列、稀疏等),提前規(guī)劃和研發(fā)分布式計(jì)算新技術(shù)和異構(gòu)計(jì)算新硬件,完成高性能計(jì)算框架的設(shè)計(jì)、研發(fā)和優(yōu)化;
任職要求:
1、碩士及以上學(xué)歷,計(jì)算機(jī)、通信或數(shù)學(xué)等相關(guān)專業(yè);
2、熟悉常用AI計(jì)算框架,精通Deepspeed、Megatron等主流訓(xùn)練加速框架技術(shù)細(xì)節(jié),掌握通過(guò)算力、網(wǎng)絡(luò)、存儲(chǔ)的優(yōu)化來(lái)提升訓(xùn)練推理效率的技術(shù)方法;
3、熟練使用Scala/C++/Go等編程語(yǔ)言進(jìn)行過(guò)大型分布式軟件開(kāi)發(fā),熟悉高性能網(wǎng)絡(luò)、高性能存儲(chǔ)技術(shù);
5、具備各層次的軟件優(yōu)化的經(jīng)驗(yàn),包括但不限于如軟件業(yè)務(wù)優(yōu)化、算法策略優(yōu)化、高并發(fā)和分布式優(yōu)化、各類型I0優(yōu)化、存儲(chǔ)優(yōu)化、緩存優(yōu)化、CPU/GPU的指令集優(yōu)化等;
4、熟悉GPU硬件架構(gòu),精通CUDA、CUDNN、NCCL等,在深度學(xué)習(xí)計(jì)算框架等領(lǐng)域有豐富優(yōu)化經(jīng)驗(yàn)者優(yōu)先;
6、具備卓越的戰(zhàn)略思維與執(zhí)行能力,有較強(qiáng)的組織領(lǐng)導(dǎo)、溝通和協(xié)調(diào)能力;
此為外包崗位,需在客戶現(xiàn)場(chǎng)辦公