崗位職責(zé):
主導(dǎo)數(shù)據(jù)工具鏈研發(fā),覆蓋以下方向:
1、數(shù)據(jù)平臺:
1.1、ETL開發(fā):設(shè)計并實現(xiàn)高效數(shù)據(jù)抽取、轉(zhuǎn)換、加載流程,支撐海量數(shù)據(jù)清洗與集成。
1.2、數(shù)據(jù)湖倉構(gòu)建:基于 Iceberg/Hudi 等表格式管理數(shù)據(jù)資產(chǎn),優(yōu)化存儲與查詢性能。
1.3、API/SDK服務(wù):開發(fā)數(shù)據(jù)訪問接口與工具包,提供標(biāo)準(zhǔn)化數(shù)據(jù)服務(wù)能力。 1.4、標(biāo)注平臺、訓(xùn)練平臺、評測平臺職責(zé)與原圖完全一致(略)。
2、優(yōu)化系統(tǒng)架構(gòu),重點保障數(shù)據(jù)管道穩(wěn)定性與服務(wù)高可用性。
任職要求
1、學(xué)歷背景:統(tǒng)專及以上計算機/電子工程/數(shù)學(xué)等相關(guān)專業(yè)。
2、技術(shù)能力(關(guān)鍵新增項):
2.1、ETL專項能力: 精通分布式ETL開發(fā)(Spark/Flink),具備任務(wù)調(diào)度、容錯與性能優(yōu)化經(jīng)驗。 掌握數(shù)據(jù)建模,能獨立設(shè)計業(yè)務(wù)表結(jié)構(gòu)。
2.2、數(shù)據(jù)湖倉與表管理: 熟練使用 Iceberg/Hudi/Delta Lake 等表格式,實現(xiàn)ACID事務(wù)與版本管理。 熟悉數(shù)據(jù)湖分層架構(gòu)。
2.3、API與SDK開發(fā): 熟練開發(fā)RESTful API(Python/Go + FastAPI/Gin),實現(xiàn)數(shù)據(jù)服務(wù)接口。 有SDK設(shè)計經(jīng)驗,支持多語言調(diào)用及版本兼容性管理。
2.4、技術(shù)要求: 5年云平臺經(jīng)驗,3年數(shù)據(jù)閉環(huán)/AI平臺經(jīng)驗。
熟悉大數(shù)據(jù)生態(tài)(Databricks/Spark/Flink/Hive)。 掌握云平臺(AWS SageMaker/阿里云PAI)、Docker/K8s。
3、加分項:
3.1、實時ETL:熟悉Flink CDC等實時同步技術(shù)。
3.2、數(shù)據(jù)治理:了解元數(shù)據(jù)管理(Apache Atlas)、數(shù)據(jù)血緣工具。 原圖加分項保留(GPU訓(xùn)練/MLOps)。
4、軟技能: 能將業(yè)務(wù)需求轉(zhuǎn)化為可落地的ETL流程或數(shù)據(jù)服務(wù)方案。
必備技能: 大數(shù)據(jù)生態(tài),智能駕駛、機器人 加分技能: 云平臺,數(shù)據(jù)閉環(huán)。