職位概述
我們正在尋找一位資深具身模型分布式訓(xùn)練師,負(fù)責(zé)領(lǐng)導(dǎo)大規(guī)模具身智能模型的分布式訓(xùn)練工作。您將參與構(gòu)建業(yè)界領(lǐng)先的機(jī)器人智能系統(tǒng),推動(dòng)具身智能技術(shù)的邊界。
核心職責(zé)
1、技術(shù)研發(fā)與實(shí)現(xiàn)
- 設(shè)計(jì)并實(shí)施大規(guī)模具身模型的分布式訓(xùn)練架構(gòu),包括數(shù)據(jù)并行、模型并行、流水線并行等策略
- 開(kāi)發(fā)和優(yōu)化多機(jī)多卡環(huán)境下的訓(xùn)練框架,提升訓(xùn)練效率和系統(tǒng)穩(wěn)定性
- 構(gòu)建高效的分布式仿真環(huán)境,支持大規(guī)模并行數(shù)據(jù)收集和策略評(píng)估
- 實(shí)現(xiàn)混合并行訓(xùn)練方案,優(yōu)化通信開(kāi)銷(xiāo)和計(jì)算資源利用率
2、系統(tǒng)優(yōu)化與性能調(diào)優(yōu)
- 分析和解決分布式訓(xùn)練中的性能瓶頸,包括通信、內(nèi)存、計(jì)算等方面
- 開(kāi)發(fā)梯度同步優(yōu)化、通信壓縮、重疊計(jì)算等性能優(yōu)化技術(shù)
- 設(shè)計(jì)和實(shí)施容錯(cuò)機(jī)制,確保長(zhǎng)時(shí)間訓(xùn)練的穩(wěn)定性和可靠性
- 優(yōu)化GPU顯存使用,支持更大模型和批次的訓(xùn)練
3、算法創(chuàng)新與應(yīng)用
- 研究和應(yīng)用最新的分布式訓(xùn)練算法,如ZeRO、MoE等先進(jìn)技術(shù)
- 開(kāi)發(fā)適應(yīng)具身智能特點(diǎn)的訓(xùn)練策略,包括多任務(wù)學(xué)習(xí)、元學(xué)習(xí)、課程學(xué)習(xí)等
- 設(shè)計(jì)高效的強(qiáng)化學(xué)習(xí)分布式訓(xùn)練框架,支持離線與在線混合訓(xùn)練
- 探索仿真到實(shí)物的遷移學(xué)習(xí)技術(shù),提升模型在真實(shí)環(huán)境中的表現(xiàn)
4、工程部署與運(yùn)維
- 構(gòu)建自動(dòng)化訓(xùn)練流水線,實(shí)現(xiàn)模型訓(xùn)練、評(píng)估、部署的全流程管理
- 開(kāi)發(fā)訓(xùn)練監(jiān)控系統(tǒng),實(shí)時(shí)跟蹤訓(xùn)練狀態(tài)、資源使用和性能指標(biāo)
- 設(shè)計(jì)和維護(hù)多集群訓(xùn)練環(huán)境,支持彈性擴(kuò)縮容和資源調(diào)度
- 建立模型版本管理和實(shí)驗(yàn)追蹤體系
5、團(tuán)隊(duì)協(xié)作與指導(dǎo)
- 領(lǐng)導(dǎo)技術(shù)方案設(shè)計(jì)和代碼審查,確保代碼質(zhì)量和系統(tǒng)可靠性
- 指導(dǎo)初級(jí)工程師,分享分布式訓(xùn)練的最佳實(shí)踐和經(jīng)驗(yàn)
- 與算法團(tuán)隊(duì)、硬件團(tuán)隊(duì)緊密合作,優(yōu)化端到端訓(xùn)練性能
- 撰寫(xiě)技術(shù)文檔,沉淀知識(shí)體系,推動(dòng)團(tuán)隊(duì)技術(shù)成長(zhǎng)
任職要求必備條件
- 3年以上分布式訓(xùn)練相關(guān)工作經(jīng)驗(yàn)
- 精通PyTorch分布式訓(xùn)練框架(DDP, FSDP, RPC等)
- 熟悉NCCL、MPI等通信庫(kù)和性能優(yōu)化
- 有大模型(10B+參數(shù))分布式訓(xùn)練實(shí)戰(zhàn)經(jīng)驗(yàn)
- 熟練掌握Python和Linux環(huán)境下的開(kāi)發(fā)調(diào)試
優(yōu)先考慮
- 有具身智能、機(jī)器人學(xué)習(xí)相關(guān)項(xiàng)目經(jīng)驗(yàn)
- 熟悉強(qiáng)化學(xué)習(xí)分布式訓(xùn)練框架(Ray, RLlib等)
- 有Kubernetes、Slurm等集群管理經(jīng)驗(yàn)
- 在頂級(jí)會(huì)議(NeurIPS, ICML, ICLR等)發(fā)表過(guò)相關(guān)論文
- 熟悉CUDA編程和內(nèi)核優(yōu)化
我們提供
- 具有競(jìng)爭(zhēng)力的薪酬待遇和股權(quán)激勵(lì)
- 業(yè)界領(lǐng)先的計(jì)算資源(數(shù)百?gòu)圓100/H800集群)
- 與頂尖團(tuán)隊(duì)共事的機(jī)會(huì),參與前沿技術(shù)研發(fā)
- 良好的職業(yè)發(fā)展通道和技術(shù)成長(zhǎng)空間