職位描述: 1、搭建多源數(shù)據(jù)采集管道(網(wǎng)絡(luò)/DB/API),支持自動接入、增量同步與異常監(jiān)控,入湖入倉分層管理。 2、進行數(shù)據(jù)清洗與標(biāo)準(zhǔn)化(錯/重/缺處理),落地規(guī)范化 ETL/ELT,并做好元數(shù)據(jù)與血緣記錄。 3、制定標(biāo)注規(guī)則與質(zhì)檢機制(抽檢、交叉驗證),將質(zhì)量指標(biāo)接入數(shù)據(jù)管道并優(yōu)化查詢與復(fù)用。 4、用復(fù)述/同義替換/語序調(diào)整與生成式 AI/規(guī)則引擎做數(shù)據(jù)增強,批量并行執(zhí)行并評估效果。 5、與算法/研發(fā)/運維協(xié)作,開發(fā)簡易后端接口與工具,沉淀最佳實踐提升團隊效率。
職位要求: 1、本科及以上,計算機/數(shù)據(jù)相關(guān)專業(yè);理解 NLP 基礎(chǔ)與大模型后訓(xùn)練流程與數(shù)據(jù)要求。 2、精通 Python,熟練 Pandas/NumPy/Spark/Flink;會 FastAPI/Flask/Spring Boot 至少其一。 3、了解前端基礎(chǔ)(Vue/React/HTML/CSS/JS),能與前端配合完成工具界面調(diào)試。 4、熟悉 MySQL/PostgreSQL/MongoDB 至少其一,具備數(shù)據(jù)建模與性能優(yōu)化意識。 5、1–3 年數(shù)據(jù)處理/數(shù)據(jù)工程經(jīng)驗;有 LLM 標(biāo)注/增強/合成/工程化或數(shù)據(jù)倉庫、采集管道、數(shù)據(jù)工具經(jīng)驗者優(yōu)先。 6、具備數(shù)據(jù)質(zhì)量評估與問題定位能力,能快速排查管道/存儲/前后端問題;善于溝通協(xié)作,學(xué)習(xí)力強、對 AI 充滿熱情,能寫清晰的技術(shù)文檔。