主要崗位職責(zé): 1.模型壓縮策略設(shè)計與實施: ü 深入理解催收業(yè)務(wù)場景(如智能外呼對話、還款意愿/能力預(yù)測、話術(shù)建議、風(fēng)險評估等)對模型性能和效率的具體要求。 ü 設(shè)計并主導(dǎo)實施基于“大模型微調(diào)”和“知識蒸餾”的模型壓縮技術(shù)路線圖,以生成高性能、低參數(shù)量的輕量級模型。 ü 探索和應(yīng)用先進的微調(diào)技術(shù)(如LoRA,Adapter,Prefix-Tuning等參數(shù)高效微調(diào)方法)以適應(yīng)催收領(lǐng)域數(shù)據(jù),提升模型任務(wù)表現(xiàn)。 ü 設(shè)計并執(zhí)行有效的蒸餾方案,選擇合適的教師模型(TeacherModel)和架構(gòu)精簡的學(xué)生模型(StudentModel),將大模型的知識高效遷移到小模型中。
2.催收場景數(shù)據(jù)集構(gòu)建與處理: ü 與業(yè)務(wù)團隊緊密合作,理解催收流程、溝通話術(shù)、客戶畫像及合規(guī)要求。 ü 主導(dǎo)或參與構(gòu)建、清洗、標(biāo)注適用于催收任務(wù)的特定領(lǐng)域高質(zhì)量數(shù)據(jù)集(如催收對話文本、客戶歷史行為數(shù)據(jù)、催收結(jié)果記錄等)。 ü 設(shè)計數(shù)據(jù)增強策略,提升模型在催收場景下的魯棒性和泛化能力。
3.輕量化模型開發(fā)與訓(xùn)練: ü 選擇合適的預(yù)訓(xùn)練大模型(如開源LLM)作為基礎(chǔ)。 ü 開發(fā)高效的微調(diào)和蒸餾訓(xùn)練腳本與流程。 ü 訓(xùn)練、調(diào)優(yōu)和評估經(jīng)過壓縮后的輕量級學(xué)生模型,確保其在催收核心任務(wù)(如意圖識別、情緒分析、關(guān)鍵信息抽取、風(fēng)險評分、對話生成等)上的性能達到業(yè)務(wù)要求,同時顯著降低模型大小和復(fù)雜度。
4.模型性能評估與優(yōu)化: ü 建立全面的評估指標(biāo)體系,不僅關(guān)注模型在催收任務(wù)上的準(zhǔn)確率、召回率等業(yè)務(wù)指標(biāo),尤其關(guān)注模型壓縮后的關(guān)鍵性能指標(biāo): n 模型參數(shù)量&體積:量化壓縮效果。 n 推理速度/時延:在目標(biāo)硬件(CPU/邊緣設(shè)備/云服務(wù)器)上測量端到端響應(yīng)時間,確保滿足催收實時交互需求。 n 計算資源消耗(FLOPs,內(nèi)存占用):精確評估模型運行所需的算力資源。 n 能效比:評估單位算力或單位時間內(nèi)的任務(wù)處理能力。 ü 持續(xù)迭代優(yōu)化模型架構(gòu)、蒸餾策略和訓(xùn)練方法,在模型性能、大小、時延和資源消耗之間尋求平衡點。
5.模型部署與推理優(yōu)化: ü 與工程團隊協(xié)作,將優(yōu)化后的輕量級模型高效部署到生產(chǎn)環(huán)境。 ü 應(yīng)用模型量化(Quantization)、剪枝(Pruning)、硬件加速(如TensorRT,ONNXRuntime優(yōu)化)等技術(shù),進一步降低推理時延和資源消耗。 ü 監(jiān)控線上模型的性能和效率指標(biāo),持續(xù)進行優(yōu)化。
6.算力成本分析與優(yōu)化: ü 評估不同模型方案(原始大模型vs壓縮后模型)在訓(xùn)練和推理階段的算力成本差異。 ü 提供數(shù)據(jù)支持,證明通過模型壓縮技術(shù)實現(xiàn)的算力節(jié)省和成本降低。
7.技術(shù)研究與創(chuàng)新: ü 跟蹤大模型壓縮、高效微調(diào)、知識蒸餾等領(lǐng)域的技術(shù)進展(如結(jié)構(gòu)化蒸餾、任務(wù)自適應(yīng)蒸餾、動態(tài)蒸餾等)。 ü 探索并嘗試將前沿技術(shù)應(yīng)用于催收場景,持續(xù)提升輕量化模型的能力邊界和效率。