崗位職責(zé):
1.設(shè)計并實現(xiàn)穩(wěn)定高效的分布式網(wǎng)絡(luò)爬蟲系統(tǒng),用于抓取互聯(lián)網(wǎng)上的公開數(shù)據(jù);
2.分析目標(biāo)網(wǎng)站結(jié)構(gòu),開發(fā)針對性策略以應(yīng)對反爬機(jī)制;
3.使用代理池、驗證碼識別、模擬瀏覽器等技術(shù)手段提高數(shù)據(jù)抓取成功率;
4.確保所有數(shù)據(jù)收集活動遵守相關(guān)法律法規(guī)及網(wǎng)站使用條款;
5.維護(hù)和優(yōu)化爬蟲系統(tǒng),確保其適應(yīng)不斷變化的目標(biāo)站點;
6.配合團(tuán)隊成員,將抓取的數(shù)據(jù)無縫集成至公司內(nèi)部的數(shù)據(jù)管道;
7.對爬取的數(shù)據(jù)進(jìn)行初步清洗、去重、格式化處理;
8.開發(fā)自動化腳本完成數(shù)據(jù)解析、轉(zhuǎn)換、歸一化工作;
9.構(gòu)建ETL流程,確保數(shù)據(jù)準(zhǔn)確無誤地加載到數(shù)據(jù)庫或數(shù)據(jù)倉庫;
10.負(fù)責(zé)數(shù)據(jù)的質(zhì)量控制,包括但不限于檢測異常值、填充缺失數(shù)據(jù)等;
核心技能:
1.熟悉python語言,熟悉常用庫如PySpider, BeautifulSoup, Scrapy, pandas等
2.理解并能運用多線程/進(jìn)程、異步編程提升效率;
3.深入理解HTTP協(xié)議及其變種,掌握RESTful API調(diào)用;
4.熟練掌握HTML/CSS/JavaScript,了解前端渲染邏輯;
5.掌握常見反爬措施及應(yīng)對方案,如驗證碼識別(滑塊、極驗)、動態(tài)IP切換、User-Agent偽裝等;
6.有JS及APP逆向經(jīng)驗,包括代碼反混淆、Hook 調(diào)試(如 Frida、Xposed)、加密算法還原(如 JSVMP、AES),熟悉主流抓包工具(Charles、Fiddler)。
7.熟悉SQL語言,具備MySQL、PostgreSQL等關(guān)系型數(shù)據(jù)庫經(jīng)驗;了解非關(guān)系型數(shù)據(jù)庫(MongoDB, Redis)的基本操作;
8.對大語言模型,知識工程有一定了解;
9.掌握Git版本控制系統(tǒng),有良好的代碼管理習(xí)慣;具備良好的問題解決能力與團(tuán)隊協(xié)作精神,能獨立分析并解決復(fù)雜技術(shù)難題,適應(yīng)快速迭代的工作節(jié)奏。
薪資福利:
1、具有競爭力的薪資——高于行業(yè)平均水平的薪酬,一年兩次調(diào)薪機(jī)會,努力就會有回報。
2、豐富完善的福利——五險一金+超長帶薪年假+年終獎+各種團(tuán)隊建設(shè)活動+戶外拓展培訓(xùn)+國內(nèi)外旅游獎勵+年會+各類親子活動
3、工作時間——周一至周五:8:30——18:00,午休兩小時,周日:14:00—18:00。法定節(jié)假日按國家標(biāo)準(zhǔn)休假,更有8—15天超長帶薪年假和各類法定帶薪假期。
4、職業(yè)發(fā)展規(guī)劃——無空降高管,全部由內(nèi)部晉升提拔!提供科學(xué)的考核體系,健全的晉升機(jī)制以及廣闊的發(fā)展空間。
5、完善的員工培訓(xùn)——提供專業(yè)培訓(xùn),涵蓋專業(yè)知識、產(chǎn)品知識、溝通技巧、管理技巧、企業(yè)文化等,全方位提升個人綜合能力。
6、辦公環(huán)境——5A級辦公寫字樓,環(huán)境優(yōu)美,設(shè)施設(shè)備齊全。
7、團(tuán)隊文化——我們相信團(tuán)隊力量,相信時間的復(fù)利,相信趨勢的勢不可擋!
公司地址:湖北省武漢市江漢區(qū)江旺路8號紅T時尚創(chuàng)意街區(qū)5棟3層——博看網(wǎng)。
(可地圖導(dǎo)航“博看網(wǎng)”到公司附近)