崗位職責:
1、負責Al Infra領域核心技術攻堅,設計語言/視覺/多模態(tài)大模型訓練及推理的技術架構和實現(xiàn)方案,更高效的實現(xiàn)模型訓練和推理;
2、結合異構硬件(如CPU/GPU/NPU)的特性,通過算子優(yōu)化、異步并發(fā)、I/O優(yōu)化等方式減少計算耗時,優(yōu)化計算效率;
3、根據(jù)AI模型的發(fā)展趨勢(如長序列、稀疏等),提前規(guī)劃和研發(fā)分布式計算新技術和異構計算新硬件,完成高性能計算框架的設計、研發(fā)和優(yōu)化。
任職要求:
1、碩士及以上學歷,計算機、通信或數(shù)學等相關專業(yè);
2、熟悉常用AI框架,精通Deepspeed、Megatron等主流訓練加速框架技術細節(jié),掌握通過算力、網(wǎng)絡、存儲的優(yōu)化來提升訓練推理效率的技術方法;
3、熟練使用Scala/C++/Go等編程語言進行過大型分布式軟件開發(fā),熟悉高性能網(wǎng)絡、高性能存儲技術;
5、具備各層次的軟件優(yōu)化的經(jīng)驗,包括但不限于如軟件業(yè)務優(yōu)化、算法策略優(yōu)化、高并發(fā)和分布式優(yōu)化、各類型I0優(yōu)化、存儲優(yōu)化、緩存優(yōu)化、CPU/GPU的指令集優(yōu)化等;
4、熟悉GPU硬件架構,精通CUDA、CUDNN、NCCL等,在深度學習計算框架等領域有豐富優(yōu)化經(jīng)驗者優(yōu)先;
6、具備卓越的戰(zhàn)略思維與執(zhí)行能力,有較強的組織領導、溝通和協(xié)調(diào)能力;