崗位要求:- 有算法/研發(fā)/數(shù)據(jù)分析背景優(yōu)先,需要熟悉 Python 或自己搭建過(guò) agent 流程;
- 有英文文獻(xiàn)閱讀能力(可以借助工具輔助)優(yōu)先;
崗位職責(zé):- 評(píng)測(cè)集復(fù)現(xiàn)與改造:蹤最新的大模型評(píng)測(cè)方法與前沿 Benchmark,探索新型評(píng)測(cè)維度和指標(biāo),根據(jù)公司需求對(duì)評(píng)測(cè)集進(jìn)行定制化改造和優(yōu)化,確保評(píng)測(cè)過(guò)程的可復(fù)現(xiàn)性與可靠性。
- 自動(dòng)評(píng)估體系建設(shè):自建大模型評(píng)測(cè)體系與評(píng)測(cè)集,以自動(dòng)評(píng)估為主,覆蓋通用能力及專(zhuān)項(xiàng)能力,設(shè)計(jì)合理的指標(biāo)體系和任務(wù)集,確保評(píng)測(cè)全面性與針對(duì)性。
- 模型效果分析:定期對(duì)不同版本的模型進(jìn)行評(píng)估和對(duì)比,輸出詳盡的評(píng)測(cè)報(bào)告,識(shí)別模型的優(yōu)勢(shì)與不足,提出改進(jìn)建議,支持模型迭代方向的明確與決策。
- 跨團(tuán)隊(duì)協(xié)作:與算法、產(chǎn)品、業(yè)務(wù)團(tuán)隊(duì)緊密配合,理解實(shí)際應(yīng)用需求,提供模型效果分析與評(píng)測(cè)方案,支持模型迭代與業(yè)務(wù)落地。