查看: 956|回复: 0

从反应到预警:数智化浪潮下的网络流量运维转型实践

[复制链接]
发表于 2024-12-19 17:02:00 | 显示全部楼层 |阅读模式
随着数字经济的迅猛发展,传统的证券行业正面临着前所未有的变革压力。乘上数智化浪潮已经不再是一个选择,而是成为了行业内的必要趋势。在这一过程中,如何依赖现代化IT基础设施与运维管理方式,以满足数字化与智能化的需求,成为各证券机构日益关注的核心话题。

证券行业运维具备高要求、高敏感性和高复杂性,这些特性与行业的金融属性、监管要求以及客户服务的实时性密切相关,与日俱增的交易量、日益复杂化的业务需求以及高客户预期对数据的实时性和准确性提出了更高要求。现存的多数监控工具尚难以满足对实时、高准确度信息获取的需求,导致潜在的风险延迟识别或被误判。

为保证对客提供连续性和高效性的IT服务,当前证券行业基本已建设非常完善的运维流程管理体系,用于管理变更、故障、性能、配置、问题等方面的IT运维任务。通过遵循这些流程,证券组织可以确保其IT基础设施的稳定性和可靠性,从而提高服务质量和客户满意度。但是依旧无法预测与防范故障的发生和损失的造成。

  科来之道  

通过网络流量与业务连续性运行的黄金指标体系构建一个高效、准确的监控告警体系,让监控告警体系不仅能够及时反应已发生的网络传输的故障与问题,还能提供深入的业务洞察,从而推动持续的性能优化和风险管理,从而预警即将发生的故障风险。


图1:监控告警体系框架

基于以上网络流量告警监控体系框架,在具体建设环节,我们按照实际场景,为确保在券商交易时间内关键业务活动得到合理监控,同时减少非交易时间的误报,实践涉及的方法细节概述如下:

(1)定制告警模板:定制监控告警模板时,为特定监控需求和场景设计的一种预配置解决方案。例如,为交易时间内的监控需求定制模板,可以包括交易时间的界定、告警的优先级调整、特定时间段的告警抑制等。

(2)建立动态基线:利用统计方法和机器学习算法,系统分析历史数据,建立不同指标对应不同的动态基线。基线能够适应指标的自然波动,并随时间自动调整;
(3)设定人工阈值:运维管理人员根据业务需求和系统运行的最佳实践,配合动态阈值,手动设定一些专家经验阈值;

(4)构建故障知识库:针对各类监控对象,构建一个以故障知识管理为核心的知识库,用于存储、记录、归纳各类网络、系统、应用的告警及其故障期间的特征规则。知识库具备故障处理建议、自诊断规则、自处理规则、告警关联规则、故障案例查询等功能,可用于协助运维人员快速识别和解决各种告警事件,提高运维效率和服务质量;

科来基于黄金指标构建深入业务的监控告警体系,推动持续的性能优化和风险管理,预警即将发生的故障风险。实践证明,应急事件准确率95%以上,隐患风险发现准确性80%以上,减少运维人员60%的时间成本。

图2:各阶段的告警处理事件数量


  展望  

实施事前监控策略,将大幅提升运维诊断效率,并将传统的人工事后诊断转变为智能化监控分析。这样的转变使得运维团队可以将更多精力投入到策略规划和系统优化中。
网络运维的自动化转型不仅仅是技术变革,更是效率提升和服务质量保证的战略需求。其目标是构建一个自感知、自学习、自修复、自优化的智能网络生态系统,从而支持业务的快速创新和可持续发展。

扫码关注公众号
了解科来最新资讯
- End -

延伸阅读

全路径“用户旅程”,已成为客户精细化管理追求新亮点
面向云环境业务应用性能的可观测立体化呈现
科来先进级可观测平台的四点能力
面向复杂多样业务环境的可编排式数据采集

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?CSNA会员注册

×
回复

使用道具 举报

您需要登录后才可以回帖 登录 | CSNA会员注册

本版积分规则

快速回复 返回顶部 返回列表