首先做几个基础检查:使用 ping 测试到国内关键节点和韩国出口 IP,观察 延迟 与 丢包。再用 traceroute(或 mtr)定位到哪一跳开始出现异常延迟或丢包。
如果延迟正常但丢包高,判断为链路质量问题;如果到网关就超时,可能是宿主或上游机房故障。此外登录云平台查看 带宽与接口状态,确认是否被限速或流控。
优先用 mtr 做持续路径探测,记录丢包发生频率与时间点。结合服务器上的 tcpdump 捕获可疑流量,查看是否有异常重传或 ICMP 限制。
接着检查主机网络栈(如 MTU、TCP window、net.ipv4.tcp_* 参数),以及防火墙或安全组规则是否触发限流。若怀疑上游链路问题,联系机房/带宽提供商提供路由及 BGP 状态。
短期测试使用 iperf3 做点对点带宽测试,注意测试时长要足够并在不同时间段多次测试以排除突发拥塞。上传与下载都要分别测。
长期监控推荐部署 Prometheus + Grafana 或 Zabbix,同时结合主机流量工具如 vnStat、iftop 定时采集接口字节数与连接数,以便发现趋势性瓶颈。
用 top、htop、iotop、sar 等工具查看 CPU、内存与磁盘 IO 利用率,关注是否有进程占用大量软中断(softirq)或网络中断(netdev)。
遇到软中断高时可考虑开启多队列(RSS)、调整中断亲和性(irqbalance),并优化网卡驱动参数。针对 I/O 瓶颈,评估是否需要切换到更高性能的磁盘或调优文件系统。
建议建立多维度告警:网络(延迟、丢包、带宽)、服务(响应时间、错误率)、主机(CPU、内存、磁盘、软中断)。告警阈值应结合历史基线设置,避免误报。
实现方法:Prometheus 抓取 node_exporter、blackbox_exporter(用于远程探测)与自定义指标,Grafana 做可视化;同时配置告警渠道(邮件、企业微信、钉钉、PagerDuty)。定期演练故障切换与工单流程,保存故障指标与抓包文件,用于事后分析与优化。