崗位職責(zé)
1.探究推理、事實性和泛化的評估套件庫。
2.運用自動和人工評估,構(gòu)建測試感知準(zhǔn)確性、符號推理正確性、工具調(diào)用精度和端到端任務(wù)成功的基準(zhǔn)測試方法。
3.在神經(jīng)推理和 MCP 調(diào)用時檢測可觀察性(度量、日志、追蹤)。
4.團(tuán)隊技術(shù)協(xié)調(diào)。
任職要求
1.專業(yè)背景:計算機(jī)、數(shù)學(xué)、統(tǒng)計、人工智能等相關(guān)專業(yè)。
2.學(xué)歷要求:碩士學(xué)歷及以上;本科學(xué)歷如有優(yōu)秀項目經(jīng)驗也可接受。
3.工作經(jīng)驗:至少 2 年相關(guān)項目經(jīng)驗,有重要項目突破經(jīng)歷可放寬至 1 年。
4.技能要求:具有 NLP/AI 性能測試評估、度量設(shè)計、代碼調(diào)試、項目進(jìn)展跟進(jìn)及 AI 項目風(fēng)險評估工作能力或經(jīng)歷,掌握統(tǒng)計分析(Python/R)、human-in-the-loop 評估框架并具有綜合審核各方進(jìn)展的技術(shù)協(xié)調(diào)能力。
工作地點:天津、杭州、珠海