主要崗位職責: 1.模型壓縮策略設計與實施: ü 深入理解催收業(yè)務場景(如智能外呼對話、還款意愿/能力預測、話術建議、風險評估等)對模型性能和效率的具體要求。 ü 設計并主導實施基于“大模型微調”和“知識蒸餾”的模型壓縮技術路線圖,以生成高性能、低參數量的輕量級模型。 ü 探索和應用先進的微調技術(如LoRA,Adapter,Prefix-Tuning等參數高效微調方法)以適應催收領域數據,提升模型任務表現。 ü 設計并執(zhí)行有效的蒸餾方案,選擇合適的教師模型(TeacherModel)和架構精簡的學生模型(StudentModel),將大模型的知識高效遷移到小模型中。
2.催收場景數據集構建與處理: ü 與業(yè)務團隊緊密合作,理解催收流程、溝通話術、客戶畫像及合規(guī)要求。 ü 主導或參與構建、清洗、標注適用于催收任務的特定領域高質量數據集(如催收對話文本、客戶歷史行為數據、催收結果記錄等)。 ü 設計數據增強策略,提升模型在催收場景下的魯棒性和泛化能力。
3.輕量化模型開發(fā)與訓練: ü 選擇合適的預訓練大模型(如開源LLM)作為基礎。 ü 開發(fā)高效的微調和蒸餾訓練腳本與流程。 ü 訓練、調優(yōu)和評估經過壓縮后的輕量級學生模型,確保其在催收核心任務(如意圖識別、情緒分析、關鍵信息抽取、風險評分、對話生成等)上的性能達到業(yè)務要求,同時顯著降低模型大小和復雜度。
4.模型性能評估與優(yōu)化: ü 建立全面的評估指標體系,不僅關注模型在催收任務上的準確率、召回率等業(yè)務指標,尤其關注模型壓縮后的關鍵性能指標: n 模型參數量&體積:量化壓縮效果。 n 推理速度/時延:在目標硬件(CPU/邊緣設備/云服務器)上測量端到端響應時間,確保滿足催收實時交互需求。 n 計算資源消耗(FLOPs,內存占用):精確評估模型運行所需的算力資源。 n 能效比:評估單位算力或單位時間內的任務處理能力。 ü 持續(xù)迭代優(yōu)化模型架構、蒸餾策略和訓練方法,在模型性能、大小、時延和資源消耗之間尋求平衡點。
5.模型部署與推理優(yōu)化: ü 與工程團隊協(xié)作,將優(yōu)化后的輕量級模型高效部署到生產環(huán)境。 ü 應用模型量化(Quantization)、剪枝(Pruning)、硬件加速(如TensorRT,ONNXRuntime優(yōu)化)等技術,進一步降低推理時延和資源消耗。 ü 監(jiān)控線上模型的性能和效率指標,持續(xù)進行優(yōu)化。
6.算力成本分析與優(yōu)化: ü 評估不同模型方案(原始大模型vs壓縮后模型)在訓練和推理階段的算力成本差異。 ü 提供數據支持,證明通過模型壓縮技術實現的算力節(jié)省和成本降低。
7.技術研究與創(chuàng)新: ü 跟蹤大模型壓縮、高效微調、知識蒸餾等領域的技術進展(如結構化蒸餾、任務自適應蒸餾、動態(tài)蒸餾等)。 ü 探索并嘗試將前沿技術應用于催收場景,持續(xù)提升輕量化模型的能力邊界和效率。