崗位職責 1. 數(shù)據(jù)管道開發(fā)與優(yōu)化 o 設計并維護高效穩(wěn)定的數(shù)據(jù)ETL流程,實現(xiàn)多源數(shù)據(jù)(結構化/非結構化)的自動化采集、清洗與轉換 o 優(yōu)化數(shù)據(jù)加工邏輯(如字段映射、缺失值處理、性能調(diào)優(yōu)),減少人工干預 o 管理數(shù)據(jù)全生命周期:從原始數(shù)據(jù)接入、分層存儲到下游應用交付 2. 數(shù)據(jù)倉庫與平臺建設 o 構建和維護企業(yè)級數(shù)據(jù)倉庫(如Hive/Redshift/BigQuery),設計分層數(shù)據(jù)模型(ODS/DWD/DWS) o 開發(fā)數(shù)據(jù)服務API(Flask/FastAPI)支持業(yè)務系統(tǒng)調(diào)用,保障數(shù)據(jù)服務高可用 o 實施數(shù)據(jù)質量監(jiān)控(完整性/一致性校驗)及血緣追蹤 3. 基礎設施與工具運維 o 管理大數(shù)據(jù)集群(Hadoop/Spark/Flink)及云平臺資源(AWS/GCP/Azure) o 運維數(shù)據(jù)調(diào)度系統(tǒng)(Airflow/DolphinScheduler)與實時計算引擎 o 維護數(shù)據(jù)庫(SQL/NoSQL)及BI工具(Tableau/Superset)的訪問權限與性能 任職要求 1. 技術棧 o 精通Python/Scala/Java至少一門語言,熟悉SQL優(yōu)化與分布式計算(Spark/Pandas) o 掌握數(shù)據(jù)倉庫建模理論,具備數(shù)倉建設實戰(zhàn)經(jīng)驗 o 熟練使用主流大數(shù)據(jù)組件(HDFS/Hive/Kafka/Flink) 2. 平臺能力 o 熟悉云計算平臺(AWS S3/EMR, GCP BigQuery等) o 有數(shù)據(jù)調(diào)度工具(Airflow/Luigi)開發(fā)運維經(jīng)驗 3. 工程化能力 o 擅長數(shù)據(jù)管道性能調(diào)優(yōu)與故障排查 o 能通過腳本(Shell/Python)實現(xiàn)流程自動化 4. 業(yè)務協(xié)作 o 能快速理解業(yè)務需求并轉化為數(shù)據(jù)解決方案 o 具備技術文檔撰寫能力,可流暢閱讀英文技術資料