本清单面向需要稳定对外连通、低丢包要求的机房与云环境,提供一套可操作的巡检与应急步骤,帮助工程师在日常运维中快速定位并修复影响服务可用性的硬件与网络问题,同时便于纳入自动化监控与告警流程。
建议把检测项分为五大类:一是硬件健康检查(CPU、内存、磁盘、RAID、PSU、风扇);二是网络健康检查(链路、延迟、丢包、路由);三是系统与服务(负载、进程、端口、日志);四是性能指标(IO、带宽、连接数);五是安全与配置(固件、补丁、ACL)。按类别编排可以简化巡检步骤并便于自动化。
优先级通常为:电源与散热(PSU、风扇、温度)> 磁盘阵列与RAID > 网卡与交换芯片 > 内存与CPU。电源或散热异常会导致瞬时不可用,磁盘故障会影响持久化数据,网卡问题直接影响连通性。发现异常先触发冗余切换再做深入排查。
常规流程:使用smartctl做SMART自检并查看Reallocated_Sector_Ct、Pending_Sector和UDMA_CRC_Error_Count;检查RAID控制器状态与重建队列;用iostat/blkid监控IO延迟;对文件系统运行fsck(维护窗口内)并查看inode使用率与挂载选项。如遇坏道考虑离线拷贝、RAID重建或RMA处理。
首选在服务器端查看接口状态(ip link、ethtool)和队列错包(ifconfig 或 ethtool -S);用mtr/traceroute检测到目标的路径与丢包走势;通过tcpdump抓包定位异常(ARP、RST、MTU碎片);在上游边界查看BGP会话、路由表与对端可达性,与提供商核对CN2链路状态与策略。
对外服务尤其依赖稳定延迟和低丢包率,短时抖动或丢包会导致用户请求超时、重传、业务错误。细化检测可以区分是服务器端拥塞、机房内部交换问题,还是上游CN2线路或对端ISP导致,从而采取不同的应对策略(本地优化、备用链路切换或联系ISP)。
阈值应结合历史基线设定,例如:CPU长期平均使用率<70%、单节点1分钟负载<核心数×1.5、磁盘I/O等待(iowait)<20%、磁盘重定位计数不允许增长、网络丢包率>0.5%触发警告、延迟增长超过基线30%触发告警。告警分级(警告/严重)并关联自动化工单与通知通道。
推荐使用Prometheus+node_exporter或Zabbix收集指标,Grafana可视化;SNMP或IPMI用于硬件传感器(温度/风扇/PSU);定期运行脚本(cron)执行SMART、fsck检查并上传结果到集中日志平台(ELK/Graylog);通过PagerDuty/钉钉/邮件进行告警并在Runbook中列出自动化恢复步骤。
使用iperf3做带宽测试,mtr记录路径丢包与延迟分布,tcpdump或sFlow进行流量抽样,结合Prometheus的histogram记录延迟分位数。保存历史快照用于回溯,必要时与CN2服务商交换traceroute与BGP邻居信息以定位跨境路由问题。
日志和快照是后续RCA(Root Cause Analysis)的核心证据。发生故障时应保存dmesg、syslog、smartctl输出、iostat/top采样、网络抓包文件和路由表快照。若需联系厂商或带盘返修,这些材料能加速定位并避免重复故障。
处理步骤:1)快速切换至冗余设备或流量切换策略以保证服务可用;2)采集必要日志与快照;3)在维护窗口内执行替换或重建操作(如RAID重建、网卡替换);4)如需厂商支持,准备RMA材料并按SLA升级;5)故障后进行RCA并更新运维文档与自动化检测规则。
联系你的带宽/托管提供商获取CN2链路的物理接口、对端AS号、BGP策略与SLA条款。保留票务与故障沟通记录,并定期与运营商做链路质量回顾,必要时申请备用路径或优先级更高的CN2 GIA通道。