崗位職責(zé):
1、核心職責(zé)聚焦于構(gòu)建可靠、高效、安全合規(guī)的AI數(shù)據(jù)基礎(chǔ)設(shè)施;
2、負(fù)責(zé)AI模型訓(xùn)練推理數(shù)據(jù)的全流程管理以及數(shù)據(jù)版本控制及質(zhì)量評(píng)估;
3、設(shè)計(jì)實(shí)現(xiàn)高吞吐、低延遲的數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL)流程,以支持模型訓(xùn)練和評(píng)估;使用工具或開(kāi)發(fā)自動(dòng)化工具/腳本(如Python)處理大規(guī)模數(shù)據(jù),包括多源數(shù)據(jù)采集、噪聲過(guò)濾、去重、缺值補(bǔ)充、存儲(chǔ)、訪問(wèn)和加載等;
4、設(shè)計(jì)數(shù)據(jù)存儲(chǔ)架構(gòu),包括數(shù)據(jù)庫(kù)選型(關(guān)系/非關(guān)系型、向量數(shù)據(jù)庫(kù)/時(shí)序數(shù)據(jù)庫(kù))、數(shù)據(jù)表、存儲(chǔ)過(guò)程、訪問(wèn)控制、性能優(yōu)化、冗余備份等;
5、按需實(shí)施隱私計(jì)算(聯(lián)邦學(xué)習(xí)/差分隱私)及脫敏策略,確保訓(xùn)練數(shù)據(jù)符合GDPR/《個(gè)保法》要求;
6、按需構(gòu)建數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái),定義并自動(dòng)化校驗(yàn)數(shù)據(jù)完整性、一致性及分布偏移指標(biāo)(如PSI)。
任職要求:
1、計(jì)算機(jī)/統(tǒng)計(jì)學(xué)相關(guān)專(zhuān)業(yè),2年以上數(shù)據(jù)工程經(jīng)驗(yàn);
2、精通Python/SQL,熟練使用 PySpark/Pandas 進(jìn)行大規(guī)模數(shù)據(jù)處理;
3、具有編寫(xiě)自動(dòng)化工具、腳本或使用分布式計(jì)算工具/ETL工具(如Hadoop、Spark、Talend等)進(jìn)行數(shù)據(jù)ETL的能力與實(shí)際工程經(jīng)驗(yàn);
4、具有設(shè)計(jì)數(shù)據(jù)存儲(chǔ)架構(gòu)的能力與實(shí)際工程經(jīng)驗(yàn);
5、熟悉電力、氣象、光伏等領(lǐng)域和設(shè)備的數(shù)據(jù)處理、治理經(jīng)驗(yàn)者優(yōu)先;
6、熟悉GDPR/《個(gè)人信息保護(hù)法》/隱私計(jì)算/脫敏策略者優(yōu)先。