崗位職責(zé)
1、基于大語言模型構(gòu)建的通用垂類應(yīng)用進行效果和質(zhì)量評估。與產(chǎn)研團隊的緊密合作,制定評估標(biāo)準(zhǔn)和體系,準(zhǔn)確分析評估效果,為應(yīng)用優(yōu)化提供指導(dǎo),以提升應(yīng)用的性能、用戶體驗和市場競爭力
2、應(yīng)用效果與質(zhì)量評估,評估基于大語言模型構(gòu)建的通用垂類應(yīng)用的效果和質(zhì)量,包括但不限于語言理解準(zhǔn)確性、生成內(nèi)容的合理性/真實性,邏輯連貫性等方面:參與收集和分析用戶反饋數(shù)據(jù)和設(shè)計測試用例,涵蓋不同場景、用戶需求和輸入條件,以確保應(yīng)用在各種情況下的穩(wěn)定性和可靠性
3、評估標(biāo)準(zhǔn)與體系建設(shè),理解業(yè)務(wù)需求和產(chǎn)品目標(biāo),與產(chǎn)研團隊密切溝通和協(xié)作,負(fù)責(zé)制定詳細、明確的評估標(biāo)準(zhǔn)和指標(biāo)體系;理解完整評估流程(評測目的、用戶數(shù)據(jù)分析、評測集建設(shè)、評測結(jié)果分析),確保評估數(shù)據(jù)的完整性和可靠性
4、評估效果分析與報告,撰寫評估報告,清晰闡述評估方法、過程、結(jié)果和結(jié)論,為產(chǎn)研團隊提供決策依據(jù)和改進方向:
5、團隊協(xié)作與溝通
崗位基本需求
1、具有較好的理解能力和文本編輯能力
2、具備大模型評測或標(biāo)注相關(guān)經(jīng)驗
3、具備責(zé)任心和抗壓能力,能對評估數(shù)據(jù)和結(jié)果負(fù)責(zé)
4、擅長溝通和團隊合作,能夠獨自推動工作
5、視覺傳達/藝術(shù)|設(shè)計類專業(yè)或?qū)σ曨l圖片有較高審美者優(yōu)先