1.計(jì)算機(jī)相關(guān)專業(yè)大專及以上學(xué)歷,3年以上開發(fā)工作經(jīng)
驗(yàn),熟練掌握Linux系統(tǒng)編程知識(shí):
2.具備強(qiáng)烈的技術(shù)熱情,良好的學(xué)習(xí)能力,分析問題及解)
問題能力,熱愛編程、善于合作、責(zé)任心強(qiáng)、樂于分享:
3.后臺(tái)技術(shù)扎實(shí),熟練掌握一門編程語言(C++/Go),有內(nèi)
容解析研發(fā)經(jīng)驗(yàn)者優(yōu)先:
4.具備AI應(yīng)用開發(fā)使用經(jīng)驗(yàn)者優(yōu)先:
5.良好的團(tuán)隊(duì)合作精神,能夠高效解決技術(shù)難題并推動(dòng)項(xiàng)目;
工作職責(zé):
?1、基礎(chǔ)解析:??
1.1、應(yīng)用核心解析技術(shù)(如HTML/DOM解析、XPath、CSS Selectors、正則表達(dá)式等)?精準(zhǔn)、高效地提取頁面中結(jié)構(gòu)化或半結(jié)構(gòu)化的基礎(chǔ)數(shù)據(jù)字段(如標(biāo)題、正文、價(jià)格、發(fā)布時(shí)間、作者、來源等)。
?2、實(shí)現(xiàn)定制化網(wǎng)頁解析邏輯:??
2.1、根據(jù)特定項(xiàng)目需求,?理解、設(shè)計(jì)并實(shí)現(xiàn)復(fù)雜的或項(xiàng)目獨(dú)有的解析規(guī)則。
2.2、能夠根據(jù)需求變化,?快速、準(zhǔn)確地調(diào)整和優(yōu)化解析策略。
?3、維護(hù)解析規(guī)則的穩(wěn)定性和持續(xù)性:??
?3.1 主動(dòng)監(jiān)控負(fù)責(zé)的解析任務(wù)運(yùn)行狀態(tài)和數(shù)據(jù)質(zhì)量。
?3.2 及時(shí)發(fā)現(xiàn)并修復(fù)因目標(biāo)網(wǎng)站結(jié)構(gòu)變更、布局調(diào)整、反爬策略更新等導(dǎo)致的解析失敗或數(shù)據(jù)提取錯(cuò)誤問題。
3.3 確保長期運(yùn)行的解析任務(wù)穩(wěn)定可靠,數(shù)據(jù)輸出持續(xù)有效。
4、?清洗、驗(yàn)證及初步格式化數(shù)據(jù):??
4.1、 對(duì)提取到的原始數(shù)據(jù)進(jìn)行必要的清洗處理?(如去除無關(guān)空白、特殊字符、錯(cuò)誤編碼、重復(fù)信息)。
?4.2、 校驗(yàn)數(shù)據(jù)的準(zhǔn)確性、完整性、格式一致性,識(shí)別并標(biāo)記或修復(fù)明顯的數(shù)據(jù)異?;蛉笔?。
4.3、 將數(shù)據(jù)轉(zhuǎn)換并格式化為約定好的輸出結(jié)構(gòu)(md等),確保下游系統(tǒng)或分析可以無縫使用。
?5、處理異常與日志記錄:??
?5.1、 識(shí)別并分類解析過程中遇到的各種異常情況?(如網(wǎng)絡(luò)超時(shí)、頁面不存在、請(qǐng)求被封禁、預(yù)期元素缺失等)。
?5.2、實(shí)現(xiàn)詳細(xì)的日志記錄,清晰記錄任務(wù)運(yùn)行過程、遇到的錯(cuò)誤及其原因、修復(fù)措施等,便于問題追蹤、復(fù)現(xiàn)和報(bào)告。
?6.、編寫與維護(hù)解析任務(wù)文檔:??
6.1、?清晰記錄負(fù)責(zé)的每個(gè)解析任務(wù)的技術(shù)細(xì)節(jié),包括目標(biāo)網(wǎng)站信息、解析邏輯說明、使用的工具/腳本、關(guān)鍵XPath/CSS規(guī)則、配置參數(shù)、運(yùn)行頻率等。
?6.2、保持文檔的準(zhǔn)確性和時(shí)效性,確保任務(wù)的可理解性、可維護(hù)性及順利交接。
7、有LLM的使用經(jīng)驗(yàn),可以使用LLM優(yōu)化已有的流程效率和解析效果。
8、負(fù)責(zé)解析準(zhǔn)召的分析和提升,能夠分析case并給出優(yōu)化方案并落地執(zhí)行,持續(xù)優(yōu)化解析的效果