登录与身份验证
每天上班第一件事,打开浏览器输入运维平台地址。别急着点登录,先确认当前网络是否接入公司内网,尤其是使用堡垒机的团队,外网得先连VPN。输入账号密码后,多数平台会要求短信验证码或动态口令,像阿里云那种MFA机制,缺一步都进不去。
健康状态巡检
进入平台首页,先看大屏监控面板。CPU、内存、磁盘IO这些基础指标有没有飘红,数据库连接数是不是突然涨了,Redis有没有频繁swap。有个同事上周没注意Redis内存告警,结果半夜缓存击穿,服务雪崩,电话响到凌晨两点。
顺便扫一眼Zabbix或Prometheus的告警列表,未处理的标红项得优先处理。有些是误报,比如测试环境定时任务触发的阈值超限,但也得点进去确认来源,不能直接忽略。
日志聚合查看
ELK或Loki里拉取前24小时的核心服务日志。重点关注ERROR和FATAL级别的记录,特别是带堆栈信息的异常。比如订单系统突然出现大量ConnectionTimeoutException,就得立刻查下游支付网关状态。
常用查询语句类似:
service:order AND level:ERROR AND -msg:\"timeout retry success\"
变更操作执行
如果有上线安排,按流程在平台上提交变更申请。填写影响范围、回滚方案,等审批人通过。审批通过后,用平台内置的发布工具灰度推送。比如先放10%流量到新版本,观察5分钟无异常再全量。
涉及配置修改时,统一走ConfigCenter操作,禁止直接登录服务器改config.ini。曾经有人手动改了生产配置,后来CMDB记录对不上,排查问题多花了三小时。
备份与恢复检查
每天上午十点前核对前一日的自动备份任务是否完成。点开备份管理模块,查看MySQL、MongoDB的备份集是否生成,大小是否正常。某次发现一个库的备份只有1MB,追查下去是mysqldump命令漏写了--all-databases参数。
定期抽查备份可用性,选个非高峰时段还原到测试环境跑一遍数据校验脚本。
资源清理与优化
清理过期日志文件和临时上传的数据。有些业务方习惯把调试包传到/tmp目录,长期不删,上次清出来80GB无用文件。通过平台批量执行清理命令:
find /tmp -name \"*.tar.gz\" -mtime +7 -delete
同时检查磁盘使用率,超过85%的节点标记关注,提前扩容。别等到报警才动,那时候往往已经影响服务了。
工单响应与协作
运维平台通常集成工单系统。开发提交的“扩容ECS”、“开通端口”类请求,要在两小时内响应。复杂操作附上执行步骤截图,避免沟通误解。有次只回了句“已开”,对方以为只是口头答应,实际还没操作,导致联调延迟。
处理完记得关闭工单,并归档操作记录,方便后续审计。