小团队 DevOps 职责清单:没有全职运维时,哪些事不能空着? 这篇不是讲概念而是给 20 人以下技术团队一份可执行清单。如果团队已经有线上服务但没有全职运维下面这些职责必须有人负责。1. 云资源资产表至少维护这些信息云平台AWS、阿里云、华为云服务器列表负载均衡数据库和缓存对象存储安全组域名和证书负责人和用途建议每月检查一次闲置资源和异常费用。2. CI/CD 发布链路必须明确代码从哪里触发构建镜像 Tag 如何生成配置如何注入谁有发布权限发布后如何检查健康状态失败后如何回滚不要让发布长期依赖某个人的手工操作。3. K8s/容器巡检每周至少看Node Ready 状态Pod 重启次数Deployment 副本数requests/limitsIngress 规则证书状态镜像拉取异常关键命名空间资源使用率4. 监控告警至少覆盖主机 CPU/内存/磁盘服务存活HTTP 状态码数据库连接Redis 内存证书到期备份失败云资源费用异常告警要有人接收也要有人调整阈值。5. 备份恢复不要只看“有没有备份”要看备份范围备份频率备份保存周期备份位置恢复演练记录建议关键数据库至少每季度做一次恢复验证。6. 故障响应最简应急流程确认影响范围判断最近变更查看监控和日志优先恢复服务再定位根因记录复盘小团队不需要复杂流程但需要有人知道第一步该做什么。7. 月度运维报告月度报告可以很简单本月变更本月故障本月风险本月成本变化下月优化建议这份报告的价值是让老板、CTO、开发团队知道线上环境不是黑盒。结尾我目前给 4 家小团队做远程 DevOps 运维托管覆盖 AWS、阿里云、华为云主要负责 K8s、Docker、CI/CD、监控告警、故障响应和月度巡检。如果你的团队没有全职运维可以先做一次免费的运维风险体检输出一份风险清单。配图建议一张“DevOps 职责清单表格”。