職位描述
系統(tǒng)運維服務(wù)器運維云運維DockerKubernetesPythonShell電子商務(wù)互聯(lián)網(wǎng)
一、崗位職責
1、系統(tǒng)與基礎(chǔ)設(shè)施管理:java python golang shell 熟練閱讀英文文檔
負責Linux服務(wù)器的部署、配置、監(jiān)控、維護、優(yōu)化和故障排除。
管理物理機、虛擬機、容器(如Docker, Kubernetes Gitlab Jenkins)環(huán)境。
管理網(wǎng)絡(luò)設(shè)備(交換機、路由器、防火墻、負載均衡器等)的配置和監(jiān)控。
管理云平臺(阿里云)資源和服務(wù)。
管理數(shù)據(jù)庫(MySQL, Redis,)、消息隊列(Kafka)、搜索引擎(Elasticsearch),緩存(Redis)等中間件的部署、監(jiān)控、備份恢復(fù)和性能優(yōu)化。
2、監(jiān)控與告警:
設(shè)計、實施和維護全面的監(jiān)控系統(tǒng)(如Prometheus, Grafana, ELK Stack等),覆蓋服務(wù)器、網(wǎng)絡(luò)、應(yīng)用、業(yè)務(wù)指標等。
配置有效的告警策略,確保能及時發(fā)現(xiàn)并響應(yīng)系統(tǒng)異常和潛在問題。
定期分析監(jiān)控數(shù)據(jù),識別性能瓶頸和優(yōu)化點。
3、故障處理與應(yīng)急響應(yīng):
快速響應(yīng)和處理線上系統(tǒng)故障、性能問題及安全事件,進行根因分析并推動解決。
參與或主導(dǎo)重大故障的復(fù)盤,制定并落實改進措施,防止問題重復(fù)發(fā)生。
參與制定和演練災(zāi)難恢復(fù)與業(yè)務(wù)連續(xù)性計劃。
4、自動化與效率提升:
使用腳本語言(如Shell, Python, Go等)和自動化工具(如Ansible, SaltStack, Puppet, Terraform等)實現(xiàn)日常運維工作的自動化(部署、配置管理、監(jiān)控配置、日志收集等)。
持續(xù)優(yōu)化運維流程,提升部署效率、系統(tǒng)穩(wěn)定性和團隊生產(chǎn)力。
推動和實施基礎(chǔ)設(shè)施即代碼實踐。
5、安全與合規(guī):
執(zhí)行系統(tǒng)安全加固策略,包括操作系統(tǒng)、網(wǎng)絡(luò)、應(yīng)用層面的安全配置。
管理用戶權(quán)限、訪問控制和審計日志。
協(xié)助進行安全漏洞掃描、修復(fù)和滲透測試后的整改。
確保系統(tǒng)運行符合相關(guān)安全規(guī)范和合規(guī)性要求。
6、部署與發(fā)布:
設(shè)計、維護和優(yōu)化持續(xù)集成/持續(xù)部署流水線 Jenkins。
負責應(yīng)用系統(tǒng)的發(fā)布、回滾和版本管理。
保障發(fā)布過程的安全、高效和可控。
7、文檔與知識管理:
編寫和維護清晰、準確的技術(shù)文檔,包括系統(tǒng)架構(gòu)圖、部署文檔、運維手冊、故障處理手冊等。
積極進行知識分享,提升團隊整體能力。
8、協(xié)作與溝通:
與開發(fā)團隊緊密協(xié)作,參與系統(tǒng)架構(gòu)設(shè)計評審,提供運維視角的建議(如可運維性、可擴展性、性能、成本)。
與測試團隊協(xié)作,確保測試環(huán)境的穩(wěn)定可用。
與其他運維/基礎(chǔ)設(shè)施團隊成員協(xié)作,共同維護大型分布式系統(tǒng)。
二、任職要求
1、必備條件:
本科及以上學歷,計算機、通信或相關(guān)專業(yè),或具備同等實踐經(jīng)驗。
3年及以上(可根據(jù)崗位級別調(diào)整)Linux/Unix系統(tǒng)運維或相關(guān)工作經(jīng)驗。
精通Linux操作系統(tǒng)原理、常用命令及網(wǎng)絡(luò)基礎(chǔ)知識(TCP/IP, HTTP, DNS等)。
熟練掌握至少一種腳本語言(Shell/Python/Go等)
熟悉主流云平臺(阿里云/騰訊云/AWS/Azure/GCP 至少一種)的核心服務(wù)(如ECS/VPC/SLB/RDS/OSS等)。
熟悉常用中間件(如Nginx/Tomcat/MySQL/Redis等)的配置、優(yōu)化和故障排查。
熟悉監(jiān)控系統(tǒng)(如Zabbix, Prometheus+Grafana, Nagios等)的原理和使用。
了解自動化運維工具(如Ansible, SaltStack, Puppet, Terraform 等)的使用。
具備優(yōu)秀的故障排查能力和邏輯分析能力,能承受一定壓力。
強烈的責任心、服務(wù)意識和團隊協(xié)作精神。
良好的溝通表達能力和文檔編寫能力。
具備基本的英語讀寫能力(能看懂技術(shù)文檔)。
2、優(yōu)先考慮:
有大型分布式系統(tǒng)、高并發(fā)、高可用系統(tǒng)運維經(jīng)驗。
精通容器技術(shù)(Docker)及容器編排平臺(Kubernetes)。
有CI/CD流水線(如Jenkins, GitLab CI等)的設(shè)計和實施經(jīng)驗。
熟悉日志收集分析系統(tǒng)(如ELK Stack, Loki等)。
熟悉配置管理工具(如Ansible, SaltStack, Puppet)。
有基礎(chǔ)設(shè)施即代碼實踐(Terraform, CloudFormation)。
了解SRE理念和實踐。
具備網(wǎng)絡(luò)安全知識或相關(guān)認證(如CISSP, CISA, 云平臺安全認證等)。
有相關(guān)云平臺認證(如AWS/Azure/GCP/阿里云/騰訊云認證)。
熟悉至少一種編程語言(如Java, Go, Python)并能進行簡單開發(fā)或腳本編寫
三、崗位福利
(1)五險、法定節(jié)假?正常休息、帶薪年假、團隊建設(shè)、節(jié)?福利。
(2)下午茶零食角;員工生日會舉辦;
(3)提供培訓和晉升機會,助力個?職業(yè)發(fā)展,致力于打造?個良好的工作環(huán)境和團隊氛圍。