職位描述
IT互聯(lián)網類/測試
功能測試:驗證AI基礎能力(如意圖識別、多輪對話、知識檢索)、API接口、多模態(tài)交互等
非功能測試:壓力測試(高并發(fā)問答)、響應延遲、容錯性(對抗性輸入處理)
場景化測試:用戶真實使用路徑模擬(如客服場景中的打斷恢復能力)
模型迭代測試:對比不同模型版本的輸出質量(準確性、安全性、偏見等)
問題分析與根因定位
建立錯誤分類體系(如知識缺失、邏輯錯誤、安全漏洞)
使用日志分析工具(如ELK)追蹤問題鏈(用戶輸入→模型處理→輸出結果)
與算法團隊協(xié)作復現(xiàn)bad cases(提供最小化復現(xiàn)步驟)
問答分析與運營
構建評估指標體系:回答準確率、用戶滿意度(Thumbs-up/down)、會話深度
熱點問題挖掘:通過聚類分析(如TF-IDF+主題模型)識別高頻需求
知識庫優(yōu)化:根據bad cases反饋補充知識條目或調整優(yōu)先級
數(shù)據驅動改進
設計測試:對比不同prompt模板或排序策略的效果
用戶行為分析:漏斗模型分析對話流失節(jié)點
自動化監(jiān)控:關鍵指標異常報警(如突然增多的"我不明白"回答)
任職資格
計算機及相關背景
AI智能體與平臺測試
功能測試:驗證AI基礎能力(如意圖識別、多輪對話、知識檢索)、API接口、多模態(tài)交互等
非功能測試:壓力測試(高并發(fā)問答)、響應延遲、容錯性(對抗性輸入處理)
場景化測試:用戶真實使用路徑模擬(如客服場景中的打斷恢復能力)
模型迭代測試:對比不同模型版本的輸出質量(準確性、安全性、偏見等)
問題分析與根因定位
建立錯誤分類體系(如知識缺失、邏輯錯誤、安全漏洞)
使用日志分析工具(如ELK)追蹤問題鏈(用戶輸入→模型處理→輸出結果)
與算法團隊協(xié)作復現(xiàn)bad cases(提供最小化復現(xiàn)步驟)
問答分析與運營
構建評估指標體系:回答準確率、用戶滿意度(Thumbs-up/down)、會話深度
熱點問題挖掘:通過聚類分析(如TF-IDF+主題模型)識別高頻需求
知識庫優(yōu)化:根據bad cases反饋補充知識條目或調整優(yōu)先級
數(shù)據驅動改進
設計測試:對比不同prompt模板或排序策略的效果
用戶行為分析:漏斗模型分析對話流失節(jié)點
自動化監(jiān)控:關鍵指標異常報警(如突然增多的"我不明白"回答)
面試信息