概述:
导致应用访问性能下降的原因非常复杂,网络传输质量、服务器性能、应用程序处理效率等都有可能导致用户访问质量下降。随着用户对网络应用的时效性要求越来越高,如何对应用系统性能状况进行有效的监控、快速定位导致性能下降的根源已经成为困扰很多IT运维人员的难点之一。
科来网络回溯分析系统通过对网络中的数据包进行实时的保存、深入的分析,能够实时分析关键应用的真实访问质量,包括:网络传输质量、应用处理效率等等。能够帮助用户在第一时间发现应用访问质量下降,并快速定位造成性能下降的根源。以下就是一个通过科来回溯分析系统帮助用户定位应用性能问题的案例。
案例分析:
某单位的网站近期不定时会出现访问缓慢的现象,用户怀疑网络质量传输不好。网络运维人员却非常困惑,因为从网管系统的监控日志来看网络设备和链路流量一直都很正常,但又拿不出有说服力的证据说明不是网络因素导致的问题。为了排查问题的根本原因,用户在其互联网出口部署了科来回溯分析系统,对出口链路流量进行透视化分析。
在采集了1天的流量数据后,用户通过科来回溯分析系统对网站的访问性能进行了回溯分析,下表为过去1天网站的关键性能指标:
从上表中可以看出,互联网用户访问该网站时网络延时平均为126.7ms,其中用户内部网络延时(平均服务端网络延时)仅0.2ms,互联网延时(平均客户端网络延时)126.5ms,这符合当前国内互联网的正常延时范围;网络的丢包率远小于1%。这些指标说明网络传输并不是导致用户访问网站缓慢的关键因素。
“平均服务响应时间”是衡量应用服务处理性能的关键指标,用户网站过去1天中平均服务响应时间达到了258.7ms,说明网站服务器的应用处理性能存在问题,很可能是导致用户访问缓慢的根源。通过网站的响应时间变化趋势图,运维人员发现并非全天都存在问题,仅在晚上18:00至次日凌晨3:00这段时间服务响应时间较高(平均3008.7ms、峰值达到30s),如下图。
提取这段时间访问网站的原始数据包进行解码分析后,运维人员发现这段时间大多数应用层请求服务器回应的都很缓慢,一些GET静态jpg文件的请求服务器都要过几秒钟才能发送回应报文,说明这段时间网站服务器的处理性能非常底下。
网络运维人员将上述分析结果告知了网站的管理员后,网站管理员对服务器进行了彻底检查,终于发现是近期配置了磁盘整理的计划任务导致磁盘整理期间读写性能下降,进而影响了网站访问性能。
案例总结:
本次案例中故障已经发生了一段时间,但用户很难通过常规网络监控手段分析网络传输和应用处理的各项性能指标,而且无法追溯故障时段数据,难以找到故障根源,造成了应用性能问题持续了很久都没有解决。通过科来网络回溯分析系统直观监控应用的各项访问性能指标,快速判断究竟是网络传输还是应用处理的问题,提供科学的数据界定问题责任,准确定位了故障根源。
网友评论