在一个交换式网络中,往往排除交换机故障比排除路由器故障要困难的多,虽然说,路由器工作原理要比交换机复杂的多。笔者今天就像大家介绍一些自己维护交换机的经验,教大家两招简单易行的交换机故障排除大法,希望能够对大家有所帮助。
在一个交换式网络中,往往排除交换机故障比排除路由器故障要困难的多,虽然说,路由器工作原理要比交换机复杂的多。笔者今天就像大家介绍一些自己维护交换机的经验,教大家两招简单易行的交换机故障排除大法,希望能够对大家有所帮助。
一、利用交换机空闲端口来分析网络流量
当出现网络堵塞或者其他问题时,我们首先需要对一些数据流量进行分析。只有在分析的基础上,我们才能够对症下药,迅速解决问题。为此,笔者平时在遇到交换机故障时,就喜欢在交换才的空闲端口接入一个检测工具,如协议分析仪器。把协议分析仪器直接连接到交换机的空闲端口,如此的话,在不用中断当前服务的情况下,就可以查看交换机所在的广播域。网络管理员可以借此来判断是否是因为广播域过多引起了网络故障。
不过,在实际工作中,这里还有一个小技巧要注意。我们都知道,交换机是属于网络设备的二层设备,其会转发广播域,但是,不会转发其他流量。也就是说,交换机是属于一个大的广播域,而不是冲突域。所以,交换机几乎不转发任何有价值的流量到那个被监测的端口。交换机会直接把数据流量转发到其对应的目的端口。往往在这些空闲端口中,协议分析仪器只能够监测到广播包,而几乎监测不到其他的信息流量。
因为转发到空闲端口(监测端口)的流量几乎全部都是广播,包含一些零星的目的地址不明的帧。这些零星的帧是由于路由转发表老化的结果。可见,如果不做过特殊的处理,在空闲端口上即使连接上监测设备,也只能够发现无穷的广播包,而不能够监测到其他有价值的信息流量。
而最昂贵的监测设备也必须在有流量的情况下,才能够帮助我们管理员找到问题的症结所在。在没有有价值的流量情况下,这些监测设备也无能为力。为此,我们网络管理员就需要想方设法,然这个空闲的端口,也能够收到其他端口经过的流量。
此时,端口镜像技术就可以帮我们有效的解决这个问题。端口镜像是指把某些端口的流量备份到一个空闲的端口,让空闲端口拥有企图端口相同的信息流量。思科的交换机基本上都有拥有这种技术。思科的交换机可以把监测工具接入到一个专门处理过的空闲端口。在思科比较早的版本中,可能对这个端口还有限制。不过在现在市场上流通的交换机,可以通过对任何一个空闲的交换机端口进行配置,实现端口镜像技术。
不过,另外还需要注意一个问题。就是交换机在转发流量的时候,为了提高转发的效率,往往把一些错误的包与信息直接过滤掉了。在平时,这明显可以提高交换机数据转发的效率。但是,我们网络管理员在故障排查的时候,可不希望看到这种情况。因为这些错误信息可能可以反映出问题的症结所在。若以在网络故障排查的时候,要注意对交换机的这个配置进行更改。不过,故障排除完毕之后,要及时的把这个参数更改回去。
还有在对镜像端口进行监测的时候,还需要注意一个丢包的问题。监测端口的输出能力往往是影响最终排错效果的一个很重要的因素。镜像端口跟普通的交换机端口一样,可以收,也可以发。不过为了简化监测数据的结果,我们在配置镜像端口的时候,往往会关掉监测端口的发送数据包功能。而让监测器只分析接收的信息流量。虽然如此配置,但是镜像端口的接收能力仍然会有比较大的限制。如果被监测的全双工端口的速率和镜像端口是一样的花,则交换机在转发流量的时候,镜像端口很容易丢包。被监测端口过好的信息流量有可能会超过镜像端口的接收能力。所以,虽然说在理论上可以拿任何一个空闲端口作为镜像端口。不过为了减少丢包情况的发生,网络管理员在配制镜像端口的时候,还是需要有一定的选择。如至少要保证镜像端口的性能要比被监测端口高。如此才能够保证监测器得出一个正确的结果。
所以,为了减少监测端口丢包现象的发生,笔者有两个建议。一是不要把多个被监测端口的信息流量镜像到一个端口中,这会更加恶化丢包现象。二是在选择镜像端口时,最好选择一个高速的空闲端口作为监测端口。
二、利用一层设备来帮助监测器进行工作
既然交换机是属于二层设备,不能够转发所有的信息流量。那么我们就思考,能否利用一个一层设备,如集线器,来帮助监测器来收集所需要的信息呢?
其实,现在不少企业的网络就是一个大的广播域。如我们在中间的一个关键环节中,加入一个集线器。然后把网络监测器连接到这个集线器的空闲端口中。如此的话,就不需要配置镜像端口,就可以让网络监测器收集到其所需要的网络流量。
利用这种方法的难度,主要在于网络管理员要选择一个合适的位置来放置这个集线器。若选择的不当的话,网络监视器仍然不能够收集到其所需要的内容。现在大部分的企业,所采取的网络应用都是基于服务器/客户端或者服务器/浏览器模式。这跟以前的网络部署模式不同。以前企业在部署网络的时候,可能每台主机都会设置共享文件夹,供其他员工访问。但是现在不同。为了提高企业文件的安全性与共享程度,网络管理员往往会部署一台专门的文件服务器来管理这些共享文件。通过统一的备份与文件访问授权方案来提高文件的安全性。
此时,企业服务器与客户段之间的流量往往是最集中的。若网络管理员把集线器部署在服务器一端,并把网络监测器放在这个集线器的空闲端口上,无疑可以监听到大部分的网络流量。从而让网络监视器能够得出一个相对合理的诊断结果。在服务器一端部署集线器等一层网络设备,可以帮助网络管理员收集到用户登录失败、访问冲突、数据包丢失、认证失败等数据流量,从而为我们解决问题提供数据上的支持。特别是通过这种方式,我们可以判断出是否是在交换机端出现了故障,还是在其他层面出现了问题。俗话说,不识庐山真面目,只缘生在此山中。有时候,脱离交换机去查找网络故障,反而可以帮助我们网络管理员迅速定位交换机故障。
另外,到目前为止,这也可以说是笔者了解的唯一一种可以在交换网络环境中实际查看和分析物理地址层错误的方法。通过这种方法,可以发现交换机等网络设备是否存在着地址解析方面的错误。特别是对于发现ARP攻击具有非常好的效果。
不过采用集线器来判断思科交换机的故障,仍然有一些缺陷。
一是需要频繁的插拔集线器,可能给日常的网络访问带来麻烦。因为在服务器与客户段之间,网络管理员不可能时间放置一台工作效率低下的集线器设备。这会大大的降低服务器的性能。只有在网络出现故障需要维护的时候,网络管理员才会在服务器与客户段之间临时部署一个集线器。此时,就需要暂时中断网络访问,进行连接。
二是如果集线器端口的工作状态与其他相邻设备的工作状态不同,如服务器链路不是全双工的,或者与集线器端口的双工状态不匹配,此时,反而会带来许多额外的错误结果。这些错误结果会弄混网络管理员解决问题的思路。故笔者建议,若要借助集线器来判断交换机的故障,则最好在这之前,先确认集线器端口的工作状态跟现有的网络是否匹配。防止因为不匹配的现象发生,而造成一些不必要的麻烦。
三是这个方法网络管理员只能够被动的采用。因为在靠近服务器一端放置集线器是一个很愚蠢的行为。所以,网络管理员往往只会在出现问题的时候,才去部署一个集线器来进行网络排错。所以,这个网络监视不能够成为一个日常行为。故这种处理方法,对于网络管理员来说比较被动。
以上是笔者在交换机组成的企业网络中经常会采用的两个排错方法。这两个方法可以帮助网络管理员排除大部分由于交换机故障所带来的网络问题。不过,在实际工作中,仍然有部分交换机故障无法通过这种方式来解决。而需要依靠网络管理员的工作经验来发现。毕竟,凭现有的技术与工具,想要凭借一些简单的方法透视整个企业交换网络,几乎是一件不可能的任务。
网友评论