崗位描述:
1. 核心數(shù)據(jù)采集與供給(占比約50%)
? 需求分析與方案設(shè)計(jì): 深度對接算法團(tuán)隊(duì),理解其對于數(shù)據(jù)規(guī)模、類型、格式和質(zhì)量的深層需求,主導(dǎo)設(shè)計(jì)技術(shù)可行、成本可控的數(shù)據(jù)采集整體方案。
? 多源數(shù)據(jù)采集實(shí)施:
○ 公開數(shù)據(jù)源: 熟練運(yùn)用爬蟲技術(shù)(Web Crawling/Scraping)從公開網(wǎng)絡(luò)、API等渠道高效、合規(guī)地獲取數(shù)據(jù)。
○ 內(nèi)部系統(tǒng)數(shù)據(jù): 設(shè)計(jì)并實(shí)現(xiàn)從公司內(nèi)部業(yè)務(wù)系統(tǒng)、日志、傳感器等數(shù)據(jù)源的數(shù)據(jù)同步方案。
○ 定制化采集: 針對特定業(yè)務(wù)場景(如圖像、視頻、音頻等),設(shè)計(jì)并推動(dòng)實(shí)施軟/硬件結(jié)合的定制化數(shù)據(jù)采集流程。
? 合規(guī)與質(zhì)量管理: 確保所有數(shù)據(jù)采集活動(dòng)遵守相關(guān)法律法規(guī)(如個(gè)人信息保護(hù)法)和網(wǎng)站協(xié)議,并建立采集數(shù)據(jù)的質(zhì)量評估標(biāo)準(zhǔn)。
2. 數(shù)據(jù)流水線開發(fā)與處理
? 基于采集的原始數(shù)據(jù),構(gòu)建高效、穩(wěn)定的數(shù)據(jù)清洗、標(biāo)注、增強(qiáng)和特征工程流水線,為模型訓(xùn)練準(zhǔn)備好“即食”數(shù)據(jù)。
? 管理和優(yōu)化數(shù)據(jù)ETL/ELT過程,確保數(shù)據(jù)從采集到服務(wù)的低延遲和高可靠性。
3. 數(shù)據(jù)資產(chǎn)與外包管理
? 對采集和處理的各類數(shù)據(jù)進(jìn)行資產(chǎn)化管理和歸檔,建立數(shù)據(jù)目錄和血緣,實(shí)現(xiàn)數(shù)據(jù)的全生命周期管理。
? 作為技術(shù)負(fù)責(zé)人,管理與數(shù)據(jù)標(biāo)注外包團(tuán)隊(duì)的合作,制定精準(zhǔn)的標(biāo)注規(guī)范,并嚴(yán)格驗(yàn)收其數(shù)據(jù)產(chǎn)出質(zhì)量。
任職要求:
? 經(jīng)驗(yàn): 5年以上數(shù)據(jù)工程經(jīng)驗(yàn),其中必須有豐富的專項(xiàng)數(shù)據(jù)采集經(jīng)驗(yàn),有支撐機(jī)器學(xué)習(xí)/深度學(xué)習(xí)項(xiàng)目的完整數(shù)據(jù)采集案例者優(yōu)先。
? 核心技術(shù)能力:
○ 數(shù)據(jù)采集專家: 必須精通Python爬蟲生態(tài)(如Scrapy、Requests、Selenium等),具備處理反爬機(jī)制、大規(guī)模分布式爬取、數(shù)據(jù)解析與去重的實(shí)戰(zhàn)能力。
○ 編程與數(shù)據(jù)加工: 熟練掌握 Python(Pandas, NumPy) 和 SQL,能夠?qū)Σ杉降姆墙Y(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)進(jìn)行高效處理。
○ 流水線與基礎(chǔ)設(shè)施: 有使用 Airflow 等工具調(diào)度和監(jiān)控?cái)?shù)據(jù)采集任務(wù)的經(jīng)驗(yàn)。熟悉 Kafka 等消息隊(duì)列,了解數(shù)據(jù)采集過程中的實(shí)時(shí)流處理。
○ 數(shù)據(jù)存儲: 熟悉不同類型數(shù)據(jù)(如文件、圖片、JSON)的存儲方案。