【崗位職責(zé)】 1、數(shù)據(jù)采集與整理:依據(jù)業(yè)務(wù)與模型需求,設(shè)計(jì)并實(shí)現(xiàn)網(wǎng)頁(yè)爬蟲(chóng)、開(kāi)放 API 調(diào)用等數(shù)據(jù)采集流程。處理多種非結(jié)構(gòu)化數(shù)據(jù)(如網(wǎng)頁(yè)文本、Markdown、PDF 等)的解析、抽取與結(jié)構(gòu)化落庫(kù); 2、根據(jù)算法團(tuán)隊(duì)需求,構(gòu)建和整理指令數(shù)據(jù)、問(wèn)答數(shù)據(jù)、對(duì)話數(shù)據(jù)等,按約定格式生成訓(xùn)練語(yǔ)料。對(duì)原始數(shù)據(jù)進(jìn)行脫敏、切分、標(biāo)簽整理等預(yù)處理,為標(biāo)注與訓(xùn)練環(huán)節(jié)提供合規(guī)且高質(zhì)量的數(shù)據(jù)輸入; 3、配合后端與算法團(tuán)隊(duì),搭建支撐 AI 應(yīng)用(如智能助手、知識(shí)問(wèn)答、智能客服等)的數(shù)據(jù)流程,包括向量化處理、索引構(gòu)建、日志采集、用戶(hù)反饋數(shù)據(jù)沉淀、特征更新等; 4、與產(chǎn)品、算法、后端等團(tuán)隊(duì)保持良好溝通,理解業(yè)務(wù)背景與需求,能夠?qū)?shù)據(jù)方案提出合理建議。