查看: 5514|回复: 21

关于sniffer告警 DB slow server Response解析(某工厂产线网络)

[复制链接]
发表于 2011-3-4 16:56:10 | 显示全部楼层 |阅读模式
本帖最后由 Daniel.hk 于 2011-3-4 17:29 编辑

向论坛里各位资深的Boss求助!!

背景說明:
DB:10.143.35.46
其他IP全是client,與DB通信是通過vlan之間路由實現。client段大概有1000左右
單獨一台測試client:10.143.35.46和DB一個網段。

TOP图如下:


sniffer分析截图一:


分析截图二:



附件截圖一上警告:DB slow server Response
有幾個疑問想請教高手
1、截图中 Duration (持續時間)貌似和DB slow server Response沒有直接關係,這怎麼解釋?
2、警告:DB slow server Response  是不是說明DB處理忙,處理鏈接太多?


请各位高手指教一下!!感谢~~有兴趣的可以帮忙分析一下!!

附件:
1、數據包1(所有client與DB之間交互數據)
2、數據包2(測試client與DB之間Tcp通信數據)




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?CSNA会员注册

×

评分

1

查看全部评分

回复

使用道具 举报

发表于 2011-3-4 22:01:05 | 显示全部楼层
本帖最后由 xiaoshazi 于 2011-3-4 22:09 编辑

网络有什么问题吗?

看服务器的响应时间和传输窗口都比较正常
回复

使用道具 举报

 楼主| 发表于 2011-3-4 22:51:09 | 显示全部楼层
网络有什么问题吗?

看服务器的响应时间和传输窗口都比较正常
xiaoshazi 发表于 2011-3-4 22:01


以上抓的包是正常的情况下,
1、我怀疑DB loading 有点大,因为产线偶尔会出现卡死的情况:
估计那时的Tcp连接会很庞大,新建立的连接会被DB reset=1 重置。
2、sniffer的专家分析:DB slow server Response
还是有些依据的吧~~
现在正常连接数稳定,偶尔client同一时刻请求连接,就可能会出现卡的状况~~~
不过这些说法,我自己觉得都有些牵强,但是,产线卡的问题始终难以解决~~
回复

使用道具 举报

发表于 2011-3-5 08:34:09 | 显示全部楼层
简单问题复杂化了,明显的是服务器DB负载不起太多的客户端
回复

使用道具 举报

发表于 2011-3-5 10:11:59 | 显示全部楼层
有几个问题,

第一你不能用正常时间的数据来分析故障现象,从你上传的数据包看不出问题。我没有sniffer ,所以也不知道"DB slow server Response"具体对应哪个数据包;

第二对比数据包1和数据包2,2的数据传输量明显高于1,每秒的流量接近15M判断网络应该是千兆网络,但是服务器的响应时间没见到增加。

专家分析系统,是开发人员分析大多数网络情况后定义的一组阀值,它只是给你一个参考,不一定适用你的网络。

建议你在网络出现问题的时候再抓包进行分析。并且你应该掌握在出现业务卡的时候关键设备的运行状态,比如服务器的网络吞吐量,服务器cpu、内存的使用情况等。这个工作最好不要人工进行,使用一些专业软件最好。
回复

使用道具 举报

 楼主| 发表于 2011-3-5 22:51:24 | 显示全部楼层
5# xiaoshazi

有个情况也一起描述一下:
在正常情况下,DB的网卡流量会突然降到低谷(几乎到零了,但是网卡为千兆网卡,应该还是有一小部分流量),此时cpu/内存都无异常,同时:抓数据包(基于tcp中flags值的reset=1/syn=1),发现reset=1的包比平时多很多,表示DB主动重置了很多tcp连接,syn=1包很少大概10个左右/sec(正常情况都会有300-400个/sec),可是产线反映也不会卡,所以就会觉得很奇怪。

你说的有道理,工具只是一个参考,这种问题都出现很久了,卡一会儿又会自动正常,每次我把网络设备(cisco)参数/路由都check了,很正常,实在是找不到问题的根源,这个现象太奇怪了。

(所以,我猜想有可能:DB loading突然加大,或者开发的软件有问题)大家有什么好的建议吗?
回复

使用道具 举报

发表于 2011-3-6 06:41:22 | 显示全部楼层
本帖最后由 xiaoshazi 于 2011-3-6 06:43 编辑

我觉得你DB上的软件很可能有漏洞,你自己检查一下软件的日志,最好能够联系开发软件的公司,让研发人员检查一下。

出现问题的时候再去检查就已经晚了,可以试试solarwind,prtg这样的东西。
回复

使用道具 举报

发表于 2011-3-6 08:44:59 | 显示全部楼层
DB slow server Response是数据库服务器响应慢,当客户端的交易处理请求发出后,服务器的处理响应超过一定的时间阀值,sniffer就会发出此告警,你可以看看缺省的阀值设定,一般在毫秒级。如果是应用卡,一般未必是数据库的问题,你说的tcp rst包很多,可以看看是不是syn rst,如果是的话,说明数据库服务器的连接数量满了,或通讯服务宕掉了,导致无法建立tcp连接。
回复

使用道具 举报

发表于 2011-3-6 08:56:42 | 显示全部楼层
client-server架构的应用,1000多台机器连数据库,很可能导致数据库的连接资源不足
回复

使用道具 举报

 楼主| 发表于 2011-3-6 22:49:58 | 显示全部楼层
我找了一个流量会降到“0”的数据包用科来6.0 来分析!!重大发现:

发现46:06与46:48时,DBA反映次时DB网卡的流量突然降至“0”,如下是抓包分析的结果:
1、TCP连接被复位(重置) 689次
   A、46:06 230次/sec
   B、46:48 240次/sec
2、TCP连接被拒绝 93次 (正常时无次现象)
   A、46:01--46:06 50次
   B、46:45--46:48 43次
3、TCP重复的连接尝试 211次(正常时无次现象)
   A、46:01--46:06 100次左右
   B、46:45--46:48 111次左右

基本可以定位是DB loading 或者是开发的软件有问题~~

非常感谢各位高手的指导帮助分析~~

我把故障时抓的包也show出来,一起分享下!


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?CSNA会员注册

×
回复

使用道具 举报

发表于 2011-3-7 10:02:21 | 显示全部楼层
你不能光看专家分析系统,要看实际的数据包的内容。

你上传的file里边,服务器做了tcp握手后,客户端没有进行响应,包括你同网段的10.143.35.37这个客户端也是这样。通过这个说明服务器是在工作的,而客户端工作有问题。但是这么大量的客户端同时出现问题也不太正常。

昨天分析你上传的数据包2,发现在同一个时刻服务器有不同的tcp窗口,你的这个应用是不是部署了2台服务器呢?
回复

使用道具 举报

 楼主| 发表于 2011-3-7 13:54:51 | 显示全部楼层
一台DB server(双网卡绑定的2Gb/s),另外一台DB 做cluster(backup),

我也注意到了,客户端无应答。。

继续观察中!tks to xiaoshazi~
回复

使用道具 举报

发表于 2011-3-7 14:39:04 | 显示全部楼层
你给出的网络拓扑太简单不能深入分析网络情况,建议部署2台机器,分别在服务器端和client端抓包分析网络出现故障时的情况。
回复

使用道具 举报

发表于 2011-3-7 22:06:10 | 显示全部楼层
恩,学习了
好贴阿
回复

使用道具 举报

发表于 2011-3-8 10:18:08 | 显示全部楼层
从新发上来的数据包看是受到了拒绝服务攻击,服务器收到大量的tcp连接请求,每秒上千个,但都是空连接。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?CSNA会员注册

×
回复

使用道具 举报

 楼主| 发表于 2011-3-9 19:57:26 | 显示全部楼层
15# gu_chong

谢谢你的提示,那就有两种可能情况了:
1、产线所有工站感染病毒,
2、软件开发的有问题,没写好,造成DOS攻击了~

我觉得第二种可能性大些~继续观察!
回复

使用道具 举报

发表于 2011-3-10 12:31:56 | 显示全部楼层
本帖最后由 xiaoshazi 于 2011-3-10 12:34 编辑

...... 请别听风就是雨。

如果你们图省钱不给软件开发单位钱的话,现在就只能忍着了,反正影响也不是特别大。
回复

使用道具 举报

 楼主| 发表于 2011-3-10 14:17:55 | 显示全部楼层
在一切都没定论前,非常感谢各位给的宝贵意见~

至于开发投入,这个,这个,只能看老板的意思啦~
网络方面我也只能提供一些建议,数据依据!
回复

使用道具 举报

发表于 2011-3-31 14:24:22 | 显示全部楼层
好东西,帮顶了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | CSNA会员注册

本版积分规则

快速回复 返回顶部 返回列表