崗位要求:
1.負(fù)責(zé)搭建和維護基于VictoriaMetrics/Prometheus的監(jiān)控系統(tǒng),實現(xiàn)指標(biāo)采集、存儲和可視化;
2.開發(fā)Loki日志收集與分析管道,優(yōu)化日志查詢性能;
3.設(shè)計Grafana監(jiān)控看板,制定業(yè)務(wù)/系統(tǒng)級監(jiān)控指標(biāo)標(biāo)準(zhǔn);
4.維護node-exporter等數(shù)據(jù)采集組件,適配k8s/k3s容器化環(huán)境;
5.研究NPU等異構(gòu)計算資源的監(jiān)控方案,開發(fā)定制化Exporter;
6.構(gòu)建多級告警體系,實現(xiàn)智能閾值判定與告警降噪。
任職要求:
1. 本科及以上學(xué)歷,計算機相關(guān)專業(yè),3年以上相關(guān)工作經(jīng)驗;
2.3年以上監(jiān)控系統(tǒng)開發(fā)經(jīng)驗,精通PromQL/VictoriaMetrics查詢語言;
3.熟練掌握Loki日志棧和Grafana可視化配置,有Dashboard模板開發(fā)經(jīng)驗;
4.熟悉k8s/k3s監(jiān)控體系,了解ServiceMonitor/PodMonitor等CRD配置;
5.具備Go/Python開發(fā)能力,能編寫定制化Exporter和告警插件;
6.有NPU/GPU等硬件監(jiān)控經(jīng)驗者優(yōu)先,熟悉DCGM工具鏈更佳;
7.熟悉OpenTelemetry等可觀測性標(biāo)準(zhǔn)者加分;
8. 有較強的學(xué)習(xí)能力,能夠快速學(xué)習(xí)工作相關(guān)的新技術(shù),并運用于相關(guān)項目中;
9. 工作態(tài)度認(rèn)真負(fù)責(zé),敢于接受挑戰(zhàn)。