崗位職責(zé):
1. 模型開(kāi)發(fā)與微調(diào)
- 負(fù)責(zé)大模型(如Qwen、DeepSeek、LLaMA)的定制化開(kāi)發(fā),針對(duì)中醫(yī)場(chǎng)景(如問(wèn)診記錄分析、方劑推薦)進(jìn)行參數(shù)高效微調(diào)(如LoRA、Adapter、QLoRA);
- 設(shè)計(jì)并實(shí)現(xiàn)模型優(yōu)化方案(如FP8/INT8量化、動(dòng)態(tài)批處理),提升推理效率與部署性能。
- 結(jié)合業(yè)務(wù)需求(如HIS系統(tǒng)集成),開(kāi)發(fā)智能功能(如舌診圖像分析、中藥配伍規(guī)則建模)。
2. 全流程模型管理
- 主導(dǎo)模型從數(shù)據(jù)預(yù)處理、訓(xùn)練、評(píng)估到部署的全生命周期管理。
- 構(gòu)建高質(zhì)量垂直領(lǐng)域數(shù)據(jù)集(如中醫(yī)古籍文本、電子病歷),完成數(shù)據(jù)清洗、標(biāo)注與增強(qiáng)。
- 使用DeepSpeed、FSDP等技術(shù)實(shí)現(xiàn)分布式訓(xùn)練,優(yōu)化GPU資源利用率。
3. 強(qiáng)化學(xué)習(xí)與對(duì)齊技術(shù)
- 研究并實(shí)現(xiàn) 監(jiān)督微調(diào)(SFT) 與 人類反饋強(qiáng)化學(xué)習(xí)(RLHF) 技術(shù),提升模型對(duì)齊用戶需求的能力(如ReFT論文中的強(qiáng)化微調(diào)方法)。
- 設(shè)計(jì) 獎(jiǎng)勵(lì)函數(shù) 和 PPO訓(xùn)練框架,優(yōu)化模型在復(fù)雜任務(wù)中的決策能力(如中醫(yī)辨證論治規(guī)則建模)。
- 探索 在線強(qiáng)化學(xué)習(xí)(Online RL) 和 離線強(qiáng)化學(xué)習(xí)(Offline RL) 在醫(yī)療場(chǎng)景的應(yīng)用。
4. 技術(shù)落地與協(xié)作
- 將微調(diào)模型集成到HIS系統(tǒng),支持智能問(wèn)診、診療輔助等功能,確保與醫(yī)療業(yè)務(wù)流程無(wú)縫對(duì)接。
- 與醫(yī)療顧問(wèn)協(xié)作,驗(yàn)證模型輸出的合規(guī)性(如中醫(yī)理論規(guī)范、患者隱私保護(hù))
- 輸出技術(shù)文檔與案例,支持客戶培訓(xùn)及技術(shù)方案宣講。
5. 前沿技術(shù)探索
- 跟蹤大模型領(lǐng)域最新研究(如多模態(tài)模型、Agent框架),探索其在醫(yī)療場(chǎng)景的應(yīng)用潛力。
- 研究對(duì)齊技術(shù)(如DPO/RLAIF)、RAG(檢索增強(qiáng)生成)等,優(yōu)化模型交互體驗(yàn)與響應(yīng)質(zhì)量。
職位要求:
1. 學(xué)歷:計(jì)算機(jī)科學(xué)、人工智能、數(shù)學(xué)或醫(yī)學(xué)相關(guān)專業(yè)碩士及以上學(xué)歷。
2. 經(jīng)驗(yàn):3年以上深度學(xué)習(xí)或大模型項(xiàng)目經(jīng)驗(yàn),有醫(yī)療AI或NLP項(xiàng)目落地者優(yōu)先。
3. 數(shù)學(xué)基礎(chǔ):
- 熟練掌握 線性代數(shù)(矩陣運(yùn)算、特征值分解)、微積分(梯度下降、優(yōu)化理論)、概率論與統(tǒng)計(jì)學(xué)(貝葉斯推斷、假設(shè)檢驗(yàn))。
- 理解 馬爾可夫決策過(guò)程(MDP)、貝爾曼方程、策略梯度定理 等強(qiáng)化學(xué)習(xí)數(shù)學(xué)基礎(chǔ)。
4. 技術(shù)能力:
- 精通PyTorch/TensorFlow框架,熟悉HuggingFace生態(tài)及主流開(kāi)源模型。
- 掌握參數(shù)高效微調(diào)(PEFT)技術(shù),熟悉LoRA、Adapter等方法。
- 熟悉分布式訓(xùn)練(如DeepSpeed、FSDP)和模型壓縮(如量化、蒸餾)。
- 有醫(yī)療數(shù)據(jù)處理經(jīng)驗(yàn)(如電子病歷、舌診圖像)或中醫(yī)知識(shí)基礎(chǔ)者優(yōu)先。
5. 強(qiáng)化學(xué)習(xí)要求:
- 熟悉 監(jiān)督微調(diào)(SFT)、人類反饋強(qiáng)化學(xué)習(xí)(RLHF)、ReFT(Reinforced Fine-Tuning) 等技術(shù)。
- 掌握 PPO(Proximal Policy Optimization)、DQN(Deep Q-Network) 等強(qiáng)化學(xué)習(xí)算法,能獨(dú)立實(shí)現(xiàn)訓(xùn)練框架。
- 有 在線強(qiáng)化學(xué)習(xí) 或 離線強(qiáng)化學(xué)習(xí) 項(xiàng)目經(jīng)驗(yàn),能設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)并優(yōu)化策略。
6. 工具掌握:
- 熟練使用Python。
- 熟悉模型部署技術(shù)(如FastAPI、Triton、vLLM、KTransformers等)。
加分項(xiàng)目:
- 對(duì)中醫(yī)有一定程度的了解,有中醫(yī)臨床經(jīng)驗(yàn),或在中醫(yī)醫(yī)療機(jī)構(gòu)中具有工作經(jīng)驗(yàn)會(huì)優(yōu)先錄取。
- 有強(qiáng)化學(xué)習(xí)論文復(fù)現(xiàn)或 ReFT技術(shù)實(shí)踐經(jīng)驗(yàn)。
- 參與過(guò)醫(yī)療AI競(jìng)賽(如Kaggle醫(yī)療挑戰(zhàn))或開(kāi)源項(xiàng)目貢獻(xiàn)。
- 掌握Docker、Kubernetes等DevOps工具