述职报告之家

工作总结

发表时间:2026-04-20

运营试用期转正工作总结。

这三个月,说实话,过得比我想象的快。刚接手那会儿,我给自己定了三条铁规矩:第一,不急着烧火,先摸清家底;第二,每改一个东西,必须能拿数据说话;第三,带人比顶岗重要。现在回头看,基本做到了,但也踩了不少坑。

先说监控这块,老法子真能把人熬秃。

七月中旬那次夜班,我这辈子忘不了。凌晨两点,业务方电话打过来,说前端页面打不开了。我爬起来远程一看,数据库连接池爆了。带着两个值班兄弟查日志,从应用日志追到数据库慢查询,再追到定时任务,折腾了两个半小时才定位到——一个数据同步脚本写漏了连接释放逻辑。问题解决了,但我心里堵得慌。为什么报警不能早点说?为什么非得等用户骂了才知道?

老监控是阈值制,CPU超过80%才叫,可连接池泄漏这种事,CPU可能才60%。说白了,它只能告诉你“已经死了”,不能告诉你“快要死了”。

所以我动手改了。没用啥高大上的算法,就是基于Prometheus的历史数据,给每个核心接口建了个动态基线。怎么建的?我拉了最近三个月的响应时间和吞吐量,算了个7天滚动均值和标准差。当实时值超过均值+2倍标准差,并且连续三次采样都超标,才预警。同时把ELK的日志和SkyWalking的调用链做了个简单关联——预警时直接抛出一段可疑的traceId和对应的SQL。第一次调试那会儿,误报多得要命,有一次凌晨四点系统报警说“缓存命中率异常”,我带着人冲到机房,发现是正常的业务高峰。后来加了个条件:凌晨两点到六点之间,阈值放宽到3倍标准差。折腾了两周,终于把误报率从37%压到了8%以内。

九月初有个大促预演,系统提前半天就预警“缓存命中率从91%掉到76%”,附带的traceId指向了一个热点商品的查询接口。我们立刻做了本地缓存和远程缓存的二级拆分,把那个key单独拎出来。当天峰值流量比预估高了20%,缓存命中率稳定在89%。运维老张说了句:“这要是以前,肯定又得挨骂。”就这一句话,我觉得前面熬的夜值了。

再说标准作业流程,这事儿差点跟人干起来。

我来了没几天,发现个怪现象:设备维护台账上写的操作步骤,跟现场实际干的,根本是两码事。比如换核心交换机的光模块,工艺标准白纸黑字写着“使用扭矩螺丝刀、清洁笔,安装后测试光功率”,可现场兄弟图省事,直接用手拧,擦都不擦。我说这样不行,光口脏了短时间没事,半年后光衰大了就等着丢包吧。有个老员工直接怼我:“我干了八年,从来都是手拧,没见出过事。”

我没跟他吵。第二天我把OTDR扛到机房,把他三个月前换过的一个模块测了一遍。回波损耗-16.3dB,标准要求至少-20dB。我把数据拍他桌上:“你看,手拧的,八年后也是这个结果。”他闷了半天,没说话。

后来我干了一件事:把每个关键操作的标准步骤压缩成一页纸,配上关键验收指标,比如“光功率在-10dBm到-3dBm之间,回波损耗≤-20dB”,直接拿胶带贴在机柜门内侧。难看,但管用。刚开始有人嫌麻烦,觉得我多事。我说你每次操作前花十秒钟看一眼,总比半年后半夜爬起来换模块强。一个月后抽查,合规率从之前的54%升到了91%。那个老员工后来主动跟我说:“你那页纸,确实有用。”

团队能力这块,我不喜欢手把手喂。

上个月小李遇到个工控机频繁重启的故障,日志里只有个“kernel panic”的模糊提示。他查了两小时没头绪,跑来找我。我问他:“你排了哪些?”他说看了系统日志、查了硬盘坏道、测了内存。我说:“你把思维过程画出来。”他画了个很乱的草图。我带着他重新整理:硬件问题分三类——电源、散热、主板。电源测纹波,散热看温度和硅脂,主板看电容和焊点。他按这个顺序排查,最后发现是CPU散热器的硅脂干了,温度一高就热保护。我让他把整个排查逻辑画成决策树,发到团队群里。

但光发群里有啥用?后来每周五下午我抽一个小时,让大家轮流讲一个自己踩过的坑。不讲大道理,就讲现场怎么发现的、怎么判断的、花了多长时间。上上周轮到小李讲这个案例,他讲完,另一个新人工小赵说:“原来先查散热再查主板啊,我之前都是反过来,浪费时间。”你看,这就对了。我不可能天天帮他们擦屁股,得让他们自己会拆雷。

文档这事,以前的跟废纸差不多。

我翻过以往的应急预案,写得那叫一个漂亮——步骤清晰、责任明确。但实际操作呢?有一次DCS系统通讯中断,预案写着“重启服务”,没说先停哪个、后起哪个。结果值班兄弟手一快,把数据库服务先重启了,导致缓存数据丢了三个周期。我们花了一个小时才补回来。

后来我定了个死规矩:每次故障排除后,必须同步更新对应的应急预案,而且更新内容必须包含“操作顺序”和“验证方法”。上个月我们专门拿一个下午演练,把通讯中断的恢复步骤细化到这种程度:①停止数据采集服务 → ②备份当前缓冲区到临时目录 → ③重启通讯中间件 → ④校验最近三个完整周期的数据完整性(对比前后两条记录的时间戳差值) → ⑤恢复采集服务。每一步后面标注预计耗时。演练了三次,平均恢复时间从原来的25分钟压到了9分钟。我让小李把这次演练的录像剪辑成小视频,存在共享盘里,谁忘了就翻出来看两分钟。

不足的地方,我自己心里有数。

一个是跨部门配合还是慢。上周采购一个新的备件,走流程走了三天,我们等不了,最后我去隔壁项目组借了个旧的顶上去。这事儿不能老这么干,我打算下个月拉着采购和库房开个短会,把常用备件做个最低库存清单,免签直接领。

另一个是新人的实操考核。之前光笔试,考得再好,真上手还是手忙脚乱。我准备下个月搞一次模拟故障演练——拔一根光纤、改一个配置、模拟一次磁盘满,限时30分钟排出来。过不了的就再练,练到行为变成肌肉记忆为止。

三个月不长,但足够把几个坏习惯掰过来。接下来就是把这几条固化到周例会里,再往下啃——比如自动化巡检脚本,比如跨机房容灾演练。现场的问题从来不等人,我们能做的,就是让系统比问题先开口。

    我们精彩推荐工作总结专题,静候访问专题:工作总结

文章来源://m.ys575.com/gongzuozongjie/191197.html