崗位要求:
- 有算法/研發(fā)/數(shù)據(jù)分析背景優(yōu)先,需要熟悉 Python 或自己搭建過 agent 流程;
- 有英文文獻(xiàn)閱讀能力(可以借助工具輔助)優(yōu)先;
崗位職責(zé):
- 評測集復(fù)現(xiàn)與改造:蹤最新的大模型評測方法與前沿 Benchmark,探索新型評測維度和指標(biāo),根據(jù)公司需求對評測集進(jìn)行定制化改造和優(yōu)化,確保評測過程的可復(fù)現(xiàn)性與可靠性。
- 自動(dòng)評估體系建設(shè):自建大模型評測體系與評測集,以自動(dòng)評估為主,覆蓋通用能力及專項(xiàng)能力,設(shè)計(jì)合理的指標(biāo)體系和任務(wù)集,確保評測全面性與針對性。
- 模型效果分析:定期對不同版本的模型進(jìn)行評估和對比,輸出詳盡的評測報(bào)告,識(shí)別模型的優(yōu)勢與不足,提出改進(jìn)建議,支持模型迭代方向的明確與決策。
- 跨團(tuán)隊(duì)協(xié)作:與算法、產(chǎn)品、業(yè)務(wù)團(tuán)隊(duì)緊密配合,理解實(shí)際應(yīng)用需求,提供模型效果分析與評測方案,支持模型迭代與業(yè)務(wù)落地。