一、工作職責(zé)
1. 負(fù)責(zé)設(shè)計(jì)、開發(fā)、優(yōu)化網(wǎng)絡(luò)爬蟲系統(tǒng),采集并處理海量數(shù)據(jù);
2. 研究并解決反爬技術(shù),確保數(shù)據(jù)采集的穩(wěn)定性和高效性;
3. 監(jiān)控?cái)?shù)據(jù)質(zhì)量,清洗、存儲(chǔ)和分析爬取的數(shù)據(jù);
4. 維護(hù)和優(yōu)化已有爬蟲,提升爬取效率與數(shù)據(jù)準(zhǔn)確性;
5. 研究最新的爬蟲技術(shù)、分布式爬取、動(dòng)態(tài)頁面解析等,提升整體抓取能力;
6. 處理封禁、驗(yàn)證碼、IP 限制等問題,優(yōu)化爬取策略;
二、任職要求
1. 本科或以上學(xué)歷,計(jì)算機(jī)、軟件工程等相關(guān)專業(yè),2年以上工作經(jīng)驗(yàn);
2. 至少熟練使用一門編程語言:GO、PHP、JAVA、python等,具有良好的編程習(xí)慣,扎實(shí)的編程基礎(chǔ);
3. 具備分布式爬蟲開發(fā)經(jīng)驗(yàn),熟練掌握相關(guān)爬蟲框架,熟悉 HTTP 協(xié)議、網(wǎng)頁解析技術(shù)、動(dòng)態(tài)頁面爬取方法;
4. 熟悉常見的反爬機(jī)制,掌握代理 IP 輪換、驗(yàn)證碼識(shí)別、User-Agent 偽裝等繞過技術(shù);
5. 具備數(shù)據(jù)清洗、存儲(chǔ)、處理的能力,熟悉 MySQL、MongoDB、Elasticsearch 等數(shù)據(jù)庫;
6. 具有良好的代碼規(guī)范和團(tuán)隊(duì)合作精神,責(zé)任心強(qiáng),善于溝通。