一句話使命:把“教材/課件/作業(yè)/案例庫(kù)”等異構(gòu)內(nèi)容,轉(zhuǎn)化為可檢索、可追溯、可評(píng)測(cè)的知識(shí)底座,支撐可信引用與課堂實(shí)操。
主要職責(zé)
- 設(shè)計(jì)并實(shí)現(xiàn)課程私有庫(kù)的數(shù)據(jù)管線:采集→清洗→解析→分塊→索引→評(píng)測(cè)→上線→監(jiān)控。
- 建立混合檢索方案(BM25 + 向量/稀疏表示),并按課程類(lèi)型調(diào)優(yōu)分塊與召回策略。
- 集成與優(yōu)化重排/Rerank與引用抽取(chunk/page錨點(diǎn)、引用鏈可視化)。
- 建立RAG評(píng)測(cè)集與指標(biāo):召回率/精準(zhǔn)率、NDCG@k、引用覆蓋率、答案“基于證據(jù)”分。
- 與AI后端協(xié)作實(shí)現(xiàn)RAG服務(wù)API(檢索、重排、證據(jù)壓縮、上下文編排)與灰度治理。
- 針對(duì)學(xué)術(shù)場(chǎng)景優(yōu)化長(zhǎng)文檔/多模態(tài)(PDF/Docx/PPT/表格/代碼)解析與OCR糾錯(cuò)。
- 數(shù)據(jù)分級(jí)、訪問(wèn)控制、PII脫敏與審計(jì)留痕;沉淀數(shù)據(jù)字典與版本化策略。
- 與教研Owner共建“可信引用規(guī)范”與Rubric對(duì)齊的證據(jù)呈現(xiàn)。
任職要求
- 精通一種后端語(yǔ)言(Python/Go),熟悉FastAPI/Go-Kit、消息隊(duì)列、向量數(shù)據(jù)庫(kù)(Milvus/Qdrant/PGVector/FAISS)。
- 深入理解RAG鏈路:分塊策略(遞歸、語(yǔ)義、結(jié)構(gòu)化段落)、embedding與檢索優(yōu)化、重排模型(如bge-reranker等)的選型與部署。
- 熟悉混合檢索與稀疏表示(BM25/SPLADE等),會(huì)做A/B評(píng)測(cè)與統(tǒng)計(jì)顯著性驗(yàn)證。
- 有生產(chǎn)級(jí)數(shù)據(jù)管線經(jīng)驗(yàn)(Airflow/Argo/Kafka),可觀測(cè)性(日志/鏈路/指標(biāo))。
- 能以工程手段降低幻覺(jué):基于證據(jù)回答、引文完整度、置信度閾值與拒答策略。
- 價(jià)值觀匹配:客戶第一、求真務(wù)實(shí);能以實(shí)證驅(qū)動(dòng)迭代,不空談“玄學(xué)提示”。
加分項(xiàng):教育/學(xué)術(shù)場(chǎng)景經(jīng)驗(yàn);中英雙語(yǔ)/多語(yǔ)檢索;表格/公式/代碼類(lèi)文檔解析;向量檢索在K8s上的彈性與成本優(yōu)化。
工具棧建議
Python/FastAPI、Milvus/Qdrant/PGVector、Elasticsearch/Lucene、bge-m3等向量模型、bge-reranker/ColBERT類(lèi)重排、Airflow/Argo、Kafka、K8s、Prometheus/Grafana、Great Expectations(數(shù)據(jù)質(zhì)量)。