● 熟悉數(shù)據(jù)分析常用方法,如指標(biāo)分析、漏斗分析等。
● 熟悉Hadoop大數(shù)據(jù)生態(tài)體系,熟悉HDFS讀寫流程、MR Shuffle流程、Yarn作業(yè)提交流程及調(diào)度策略,對(duì)HA集群、MR Shuffle的優(yōu)化有相關(guān)了解。
● 熟練運(yùn)用Hive對(duì)數(shù)據(jù)進(jìn)行查詢、統(tǒng)計(jì)等操作,對(duì)Hive優(yōu)化的思路與方法有相關(guān)的了解,了解Hive底層執(zhí)行原理。
● 熟悉Spark分布式計(jì)算引擎,熟悉 Spark Core 底層原理及 Spark 常用算子,熟悉 Spark 內(nèi)存管理機(jī)制,能根據(jù)業(yè)務(wù)需求使用Spark SQL進(jìn)行數(shù)據(jù)處理、查詢、統(tǒng)計(jì)。
● 熟悉 Oracle 、MySql 關(guān)系型數(shù)據(jù)庫,熟悉關(guān)系型數(shù)據(jù)庫的存儲(chǔ)過程和事務(wù)機(jī)制,了解數(shù)據(jù)庫的索引及優(yōu)化。
● 熟悉 Python 編程語言,能用pandas、numpy進(jìn)行數(shù)據(jù)處理。
● 熟悉 Linux 系統(tǒng),掌握常用的 Linux 命令,能夠完成日常工作中 Shell 腳本的編寫。
● 熟悉永洪BI,能針對(duì)不同場(chǎng)景制作相關(guān)報(bào)表解決實(shí)際業(yè)務(wù)需求。
● 熟悉EXCEL,能通過EXCEL完成數(shù)據(jù)處理相關(guān)操作。