前几天的问题解决了,http://www.csna.cn/forum.php?mod ... &extra=page%3D1
科来起了挺大的作用,今天又空把它整理一下。
故障:
有3台小机,1号和2号各自做了双网卡绑定(各自有两个网卡,在小机系统里把两个物理网卡绑定成一个逻辑网卡),5号是单网卡
1号机IP:172.16.200.1
2号机IP:172.16.200.2
5号机IP:172.16.200.5
同网段PING小机的IP地址,所有机都不掉包
跨网段PING小机的IP地址,1号机器掉包,2号掉的更厉害,5号不掉包
由于,1号2号做了双网卡绑定,5号没有,而故障恰好在1、2号,所以问题一直聚焦在绑定上面。网上查过资料,很少涉及双卡绑定时交换机应该如何配置,但是有些资料说交换机需要做链路聚合。因此查了很多做链路聚合的方法,在核心CISCO的65上做了,故障依旧。(最后实际证明,交换机可以不需要做链路聚合,这可能也是网上资料少的原因)
客户按我的建议抓了包,每次抓的情况都不大一样,其中就包括文中的链接,故障也很奇怪
后来自己亲自去抓包,单独PING 1号抓1次,单独PING 2号抓1次,研究了一下,发现掉包是有规律的。
1号机器的回应AC:C9,BF:0F,是间隔的 (2.JPG)
2号机器的回应更奇怪,有3个地址,AC:C9,F5:1D,F5:1C (3.JPG)
从包里还可以看出,1号机和2号机器之间还有不应该存在的通信
再注意研究,AC:C9当然是交换机的地址
而,1号机回复的另一个的目的端口BF:0F和2号有关系
2号机回复的另一个的目的端口F5:1C和1号有关系 (5.JPG)
也就是说,1号机把包回给2号,2号把包回给1号
结合跨网段会出问题,同网段不出问题,于是就把故障焦点转移到路由上。
查小机的路由表,发现了可疑的东西,1号机器上有一条默认路由指向2号,2号机器也有一条默认路由指向1号,同时还有另一个默认路由(忘了,懒得看包了)
于是把多余默认路由去掉,一切问题解决。后来了解默认路由是机器配置测试时留下的,同网段测通了后忘了去掉造成的。
[ 本帖最后由 xmubbs 于 2008-5-13 17:59 编辑 ] |