查看: 8874|回复: 2

采用网络回溯分析技术解决PLC硬件故障引发的频繁丢包问题

[复制链接]
发表于 2015-7-21 16:48:29 | 显示全部楼层 |阅读模式
一、故障描述


某公司PLC设备近期出现异常,设备经常报告连接故障,公司技术人员通过Ping测试发现该设备存在丢包现象(丢包率约1~2%)。初步怀疑为网络线路或设备问题所致。
为了判断问题原因,我们在出问题的PLC设备接入交换机处旁路部署了科来回溯分析系统进行数据包级分析,PLC网络环境及分析设备部署示意图如下。



我们通过交换机端口双向流量镜像分别采集故障PLC和正常PLC的通信数据进行比对分析,以下是详细分析过程及分析结论。
二、分析过程
1. 故障PLC单网卡数据分析
首先,我们镜像故障PLC问题最严重网卡(IPXX.XX.8.4)的接口双向流量,在采集数据的同时公司技术人员配合从核心交换ping XX.XX.8.4
从采集到的ICMP协议报文数量可以看到,测试期间共捕获124ping请求包(Echo Req),但只捕获122ping应答包(Echo Reply),如下图。


可以看出从故障PLC设备到边缘交换机接口就存在丢包现象,故障PLC1.6%的包没有传输到边缘交换机。
同时,在测试期间XX.XX.8.4TCP通信中存在明显的丢包现象,如下图所示。


通过以上数据,我们可以初步判断造成丢包现象的原因出自从故障PLC到接入交换机之间,可能的问题点包括:
a.接入交换机接口故障;
b.故障PLC接入网线故障;
c.故障PLC设备自身网卡或其他硬件故障;
2.故障PLC全部网卡数据分析
第二步,我们镜像了故障PLC的全部三个网卡连接的交换机接口双向流量,发现三个网卡都有丢包现象,而且丢包量基本相当,如下图所示。


这说明丢包并不是XX.XX.8.4一个网卡的问题,而是故障PLC三个网卡的都有的现象。从其TCP会话统计来看也都是从PLC设备发送到接入交换机时出现的丢包。
由于三个网线或三个交换机接口同时存在问题的可能性很小,所以我们基本可以判断是故障PLC设备自身硬件问题导致的丢包现象。
3.正常PLC数据分析
第三步,我们镜像在同一边缘交换机的正常PLC设备(XX.XX.9.172)接口的流量,从采集数据中我们只看到了很少量的TCP重传,并且这些重传都是与XX.XX.8.4相关的通讯导致的,如下图所示。


这说明正常PLC设备并没有到接入交换机之间并没有明显的丢包迹象,进一步验证了之前的分析结论。
三、分析结论
通过以上数据分析,我们判断存在丢包问题的PLC设备极有可能是由于该PLC设备自身硬件问题导致数据包没有正常的从网卡发送到网络中所致;网线和接入交换机接口导致丢包现象的可能性非常小。
建议用户在非生产时段用PC机接入到故障设备的网线上,配置相同IP地址,通过ping测试是否还存在丢包现象,如果没有出现丢包或丢包率远小于1%即可完全排除网络原因。

回复

使用道具 举报

发表于 2015-8-25 13:13:19 | 显示全部楼层
学习学习
回复

使用道具 举报

您需要登录后才可以回帖 登录 | CSNA会员注册

本版积分规则

快速回复 返回顶部 返回列表