刚进公司那会儿,运维同事老张每天一睁眼就盯着告警群,消息99+,咖啡续命三杯起步。哪台服务CPU飙高了、哪个接口超时了、数据库又连不上了……他总能第一时间冲上去‘灭火’。后来团队引入SRE理念,老张的工位旁多了一块白板,上面贴着‘本周故障复盘’‘MTTR下降目标’‘自动化覆盖率’——人没变,但做事的节奏和眼神,悄悄不一样了。
文化不是贴在墙上的口号
SRE文化建设,不是让所有人背《SRE手册》第3章,也不是搞一场‘拥抱可靠性’主题团建。它藏在日常选择里:当一个新功能上线前,开发说‘先上灰度,监控拉满,回滚脚本我写了’,这就是文化在生长;当一次线上抖动后,大家围在一起画因果图,没人急着甩锅,而是问‘我们的告警阈值是不是太粗了?’——这就是文化在扎根。
从小事开始种习惯
建议团队从三个‘小动作’启动:
- 每周15分钟‘可观测性快闪’:轮流分享一个监控图表怎么看、一个日志关键词怎么搜、一个Trace链路怎么追。不用PPT,就用Kibana或Grafana实时打开讲。
- 把‘错误预算’当真事算:比如约定月度可用性目标99.95%,那就公开当前消耗了多少。某次发版导致错误预算只剩8%,后续两周自动暂停非紧急发布——规则由团队共定,也由团队共守。
- 给‘自动化脚本’发‘电子奖状’:谁写了个一键清理僵尸进程的脚本,就在内部Wiki置顶,署名+一句话说明解决了什么痛。别小看这个,它在悄悄改变认知:‘写脚本能省下自己两小时,比加班补漏酷多了’。
警惕那些‘伪SRE’信号
如果发现这些苗头,得及时调头:
- 所有SLO都写在文档里,但从没人查实际数值;
- 故障复盘纪要写得漂亮,但同类型问题三个月内重复发生两次;
- 新人入职培训第一课是‘出事找谁’,而不是‘怎么查指标、怎么跑预案’。
这些不是流程漏洞,是文化土壤还没松动。
最后一点实在话
SRE文化不是把运维变成开发,也不是让开发去扛on-call。它是让写代码的人心里多一根‘稳定性弦’,也让盯屏幕的人手里多一把‘自动化铲子’。老张现在还是天天看监控,但他会笑着指给你看:‘这周我只处理了2次告警,另外17次,是那个Python脚本自己搞定的。’——你看,文化长成啥样,就藏在这种语气里。