參與企業(yè)級監(jiān)控平臺研發(fā),統(tǒng)一采集分析指標、日志及鏈路數(shù)據(jù),開發(fā)高性能數(shù)據(jù)處理模塊支撐實時可觀測性;實現(xiàn)智能告警、故障定位等能力,推動全公司監(jiān)控標準化,優(yōu)化資源消耗與查詢效率。
1. 學歷:本科及以上,計算機科學與技術、軟件工程、網(wǎng)絡工程、物聯(lián)網(wǎng)工程、數(shù)學與應用數(shù)學、信息與計算科學、電子信息工程、電子科學與技術、通信工程、等理工科相關專業(yè)
2. 工作年限:3年及以上相關工作經(jīng)驗;
3. 技術要求:熟悉 Java 或 Go 編程語言,有 Prometheus、Grafana、ELK、Loki、SkyWalking 等系統(tǒng)開發(fā)或深度定制經(jīng)驗;熟悉時序數(shù)據(jù)庫(Prometheus TSDB、InfluxDB、ClickHouse)或日志存儲(Elasticsearch)的原理與調(diào)優(yōu);能設計高吞吐、低延遲的數(shù)據(jù)管道(采集、傳輸、存儲、查詢),處理百萬級指標或 TB 級日志;理解分布式系統(tǒng)常見故障模式,能將運維痛點轉(zhuǎn)化為有效監(jiān)控能力;熟悉 OpenTelemetry 標準,具備埋點規(guī)范設計與落地能力;掌握監(jiān)控告警策略設計、降噪算法與根因分析輔助技術。
4. 具備良好的團隊協(xié)作能力、溝通能力與問題解決能力,認同公司技術理念與發(fā)展方向。