崗位職責(zé):
1. 負(fù)責(zé)爬蟲項目的需求分析與方案設(shè)計,針對各類目標(biāo)網(wǎng)站(如公開數(shù)據(jù)平臺、行業(yè)資訊站點(diǎn)等)制定高效、合規(guī)的爬取策略
2. 獨(dú)立完成爬蟲程序的開發(fā)、調(diào)試與優(yōu)化,熟練運(yùn)用requests、Scrapy、BeautifulSoup、Selenium等工具,解決反爬機(jī)制(如IP封鎖、驗證碼、動態(tài)加載)問題
3. 負(fù)責(zé)爬取數(shù)據(jù)的清洗、解析、存儲(如MySQL、MongoDB)及質(zhì)量校驗,確保數(shù)據(jù)的準(zhǔn)確性、完整性和時效性
4. 維護(hù)現(xiàn)有爬蟲系統(tǒng)的穩(wěn)定運(yùn)行,監(jiān)控數(shù)據(jù)抓取狀態(tài),及時處理異常情況(如網(wǎng)站結(jié)構(gòu)變更、爬取效率下降)并迭代優(yōu)化
5. 與數(shù)據(jù)分析師、產(chǎn)品經(jīng)理等協(xié)作,根據(jù)業(yè)務(wù)需求輸出標(biāo)準(zhǔn)化數(shù)據(jù)成果,支撐業(yè)務(wù)決策與產(chǎn)品迭代。
崗位要求:
1. 本科及以上學(xué)歷,計算機(jī)、軟件工程、數(shù)據(jù)科學(xué)等相關(guān)專業(yè)優(yōu)先,3-5年P(guān)ython爬蟲開發(fā)經(jīng)驗,有大規(guī)模分布式爬蟲、高并發(fā)數(shù)據(jù)抓取項目經(jīng)驗者優(yōu)先
2. 精通Python語言基礎(chǔ),熟練掌握爬蟲核心庫(requests、Scrapy、lxml、PyQuery)及異步爬蟲技術(shù)(aiohttp、asyncio)
3. 熟悉常見反爬手段(UA偽裝、Cookie池、IP代理池、滑塊驗證識別),能獨(dú)立設(shè)計應(yīng)對方案
4. 掌握HTML/CSS/JavaScript解析,能處理動態(tài)渲染頁面(如Selenium、Playwright、Pyppeteer)
5. 熟練使用至少一種數(shù)據(jù)庫(MySQL/MongoDB/Redis),具備數(shù)據(jù)清洗、格式轉(zhuǎn)換及批量處理能力