崗位職責(zé):
- 數(shù)據(jù)爬?。?編寫高效的Python爬蟲腳本,從指定的公開網(wǎng)站、API接口、氣象數(shù)據(jù)平臺、農(nóng)業(yè)政務(wù)網(wǎng)站等渠道,自動化抓取多源異構(gòu)數(shù)據(jù)(如氣象數(shù)據(jù)、土壤墑情、遙感影像、作物價(jià)格、病蟲害情報(bào)、學(xué)術(shù)論文等);
- 數(shù)據(jù)清洗與處理: 對爬取到的原始數(shù)據(jù)進(jìn)行清洗、去重、格式化、轉(zhuǎn)換和集成,確保數(shù)據(jù)的準(zhǔn)確性和一致性,使其滿足作物模型研究的輸入要求;
- 反爬策略應(yīng)對: 研究并實(shí)施合理的策略以應(yīng)對常見的反爬蟲機(jī)制(如IP限制、驗(yàn)證碼、動態(tài)加載等),確保數(shù)據(jù)采集任務(wù)的穩(wěn)定運(yùn)行;
- 文檔與協(xié)作: 撰寫清晰的技術(shù)文檔,記錄爬蟲設(shè)計(jì)思路、數(shù)據(jù)源結(jié)構(gòu)和數(shù)據(jù)處理流程,并與研究員保持密切溝通,理解數(shù)據(jù)需求;
- 完成領(lǐng)導(dǎo)交辦的其他工作。
任職資格:
1. 2026/2027屆在校本科生或研究生,計(jì)算機(jī)科學(xué)、軟件工程、數(shù)據(jù)科學(xué)、農(nóng)業(yè)信息技術(shù)或相關(guān)專業(yè);
2. 熟練掌握 Python 編程語言,有良好的編碼習(xí)慣;
3. 熟悉常用的網(wǎng)絡(luò)爬蟲框架,如 Scrapy、Requests、BeautifulSoup、lxml 等;
4. 了解網(wǎng)頁前端基礎(chǔ)(HTML, CSS, JavaScript),能分析網(wǎng)頁結(jié)構(gòu)并提取數(shù)據(jù);
5. 有處理 Ajax動態(tài)加載、Selenium 或 Playwright 模擬瀏覽器操作的經(jīng)驗(yàn);
6. 接觸過數(shù)據(jù)庫操作(SQL或NoSQL),了解正則表達(dá)式、Pandas 等數(shù)據(jù)處理庫,對多線程/異步IO爬蟲有一定了解,有實(shí)際爬蟲項(xiàng)目經(jīng)驗(yàn)(課程設(shè)計(jì)、個人項(xiàng)目均可),對農(nóng)業(yè)、氣象、地理或環(huán)境科學(xué)有濃厚興趣;
7. 具備出色的學(xué)習(xí)能力和解決問題的能力,面對技術(shù)挑戰(zhàn)樂于鉆研,做事細(xì)心嚴(yán)謹(jǐn),對數(shù)據(jù)質(zhì)量有要求,良好的溝通能力和團(tuán)隊(duì)協(xié)作精神;
8. 服從管理。