运维平台日常操作流程实用指南

登录与身份验证

每天上班第一件事，打开浏览器输入运维平台地址。别急着点登录，先确认当前网络是否接入公司内网，尤其是使用堡垒机的团队，外网得先连VPN。输入账号密码后，多数平台会要求短信验证码或动态口令，像阿里云那种MFA机制，缺一步都进不去。

进入平台首页，先看大屏监控面板。CPU、内存、磁盘IO这些基础指标有没有飘红，数据库连接数是不是突然涨了，Redis有没有频繁swap。有个同事上周没注意Redis内存告警，结果半夜缓存击穿，服务雪崩，电话响到凌晨两点。

顺便扫一眼Zabbix或Prometheus的告警列表，未处理的标红项得优先处理。有些是误报，比如测试环境定时任务触发的阈值超限，但也得点进去确认来源，不能直接忽略。

ELK或Loki里拉取前24小时的核心服务日志。重点关注ERROR和FATAL级别的记录，特别是带堆栈信息的异常。比如订单系统突然出现大量ConnectionTimeoutException，就得立刻查下游支付网关状态。

常用查询语句类似：

service:order AND level:ERROR AND -msg:\"timeout retry success\"

如果有上线安排，按流程在平台上提交变更申请。填写影响范围、回滚方案，等审批人通过。审批通过后，用平台内置的发布工具灰度推送。比如先放10%流量到新版本，观察5分钟无异常再全量。

涉及配置修改时，统一走ConfigCenter操作，禁止直接登录服务器改config.ini。曾经有人手动改了生产配置，后来CMDB记录对不上，排查问题多花了三小时。

每天上午十点前核对前一日的自动备份任务是否完成。点开备份管理模块，查看MySQL、MongoDB的备份集是否生成，大小是否正常。某次发现一个库的备份只有1MB，追查下去是mysqldump命令漏写了--all-databases参数。

定期抽查备份可用性，选个非高峰时段还原到测试环境跑一遍数据校验脚本。

清理过期日志文件和临时上传的数据。有些业务方习惯把调试包传到/tmp目录，长期不删，上次清出来80GB无用文件。通过平台批量执行清理命令：

find /tmp -name \"*.tar.gz\" -mtime +7 -delete

同时检查磁盘使用率，超过85%的节点标记关注，提前扩容。别等到报警才动，那时候往往已经影响服务了。

运维平台通常集成工单系统。开发提交的“扩容ECS”、“开通端口”类请求，要在两小时内响应。复杂操作附上执行步骤截图，避免沟通误解。有次只回了句“已开”，对方以为只是口头答应，实际还没操作，导致联调延迟。

处理完记得关闭工单，并归档操作记录，方便后续审计。