股票在线配资公司
【课题研究机构】国信证券(002736)股份有限公司
【摘要】随着数字化转型的深入,证券行业信息系统架构日趋复杂,系统变更的专业程度、精细化程度和复杂度越来越高,变更引起的系统运行风险也日益加剧。本课题旨在探索智能算法在证券系统变更风险防范场景的应用,结合用户拨测、预发压测、混沌工程等技术方案,覆盖变更风险预防、风险感知、预警优化全流程,构建兼顾事前规避、全局洞察、防治一体、治理运营的智能化变更风险预警架构。提前感知、防范并化解变更导致的系统运行风险,建立主动发现变更隐患的工作机制,有效推动系统运维工作从被动式救火转向主动式运营,解决行业共性问题。
01
课题背景及意义
变更在软件开发和系统维护过程中是频繁且不可避免的,由证监局2023年数据可知,2020年以来,因变更升级管理不当造成的网络安全事件占比高达54%。《证券公司网络和信息安全三年提升计划(2023-2025)》等文件中,也明确要求提升变更专项风险识别管控能力。
证券系统由于行业特点,变更集中在流量稀缺的休市期,风险检测和预警难度大,容易导致故障在开市后集中爆发,造成难以挽回的损失。且传统IT监控系统通常根据可预见性的问题而设计,难以满足券商业务创新加速、技术架构更新、运维规模膨胀现状下的变更风险预警要求。
为了迎接数字化、信息安全、业务变革、架构演进的新时代新挑战,必须在保障信息系统稳定运行的前提下,兼顾敏捷交付能力、快速响应业务变化、支持公司业务快速创新,实现信息系统服务高质量输出。为此,国信证券积极开展“证券系统变更风险智能预警关键技术”专项研究,建立主动发现变更隐患的工作机制,确保系统变更安全高效。
02
课题目标
课题立足于国信证券“安全第一,预防为主,管理与技术并重,综合防范”的核心理念,旨在借助通过“智能化风控”“智能化检测”和“智能化分析”,适配证券行业特点,赋能“变更前主动风险预防”“变更后及时风险感知”与“变更风险预警质量治理”三大场景,构建证券系统变更风险的预警技术方案,实现全方位的变更风险预警闭环。在有效避免变更引发的业务连续性风险的前提下,兼顾业务系统的版本交付效率,保障业务稳定运行与高质量发展。
图1 智能变更风险预警架构
03
变更前主动风险预防
全面、精准、有效的性能及容量评估测试,能够在变更前主动识别风险,避免将故障引入生产环境。而受限于技术方案、工具平台,变更性能测试可能存在变更相关接口遗漏、测试数据受行情波动影响等失真风险,并且人工也难以对复杂的测试结果数据进行分析,导致系统变更的性能容量风险难以准确识别。
课题构建了一套变更风险主动检测方案,在变更前全面预防风险,避免将风险引入生产环境。通过智能化的测试用例生成制定科学准确的变更测试评估方案,应用动态阈值检测算法提升变更测试异常检测的分析质效,将稳定性风险防控前置到变更前。
图2 变更主动检测方案架构
3.1
测试流量模型智能生成,确保变更
测试方案科学全面
为防止变更业务压测结果失真,本课题基于真实用户的全链路调用轨迹,结合应用间的访问链路拓扑和系统变更影响范围,建立智能测试流量模型生成算法,应用随机游走算法结合蒙特卡洛树,按接口代码覆盖率和业务流量占比筛选用例集,以此覆盖变更链路的性能评估。动态预测变更后用户访问流量,确保压测范围更稳定全面,更能真实反映变更后的业务影响。
智能流量生成模型在保障变更范围链路覆盖度的同时,增加了测试数据的多样性,确保测试结果科学全面。并且能针对上游入口流量增多等趋势,动态调整测试强度,降低了无效重复的测试链路数据,极大提升了性能评估可靠性,降低了应用门槛。
3.2
测试结果指标智能分析,预发环境
主动检测风险
预发环境测试涉及成千上万的监控项,且数据表现随任务波动,人工分析繁琐且易缺漏。本课题使用奇异谱变换、DeepAR 络等算法,学习分析业务系统各应用组件的服务状态,针对不同应用组件的指标生成可自适应调整的阈值区间,避免人工设置阈值一刀切的片面性,通过对比不同测试任务,快速从海量测试监控项中识别离群指标,精细化发现性能异常。
测试对比检测算法增大了对变更服务以及边界服务的性能测试的广度与深度,能很好拦截人工容易漏掉的一些低频或偏底层的性能隐患,提升了性能风险评估的全面性。
04
变更后及时风险感知
休市期缺少用户流量,导致异常问题表现不明显,往往等到开市后才被发现。同时大批系统集中变更,期间会产生大量系统日志报错和监控项异常,变更上下游链路影响难以兼顾。传统阈值监控或一般基于历史数据的指标、日志单监控项的异常检测算法,难以快速适配变更场景。
课题构建了一套复合的变更后智能化风险检测框架,解决证券变更后的风险检测难点,多角度精准敏感识别变更潜在风险。应用多模态对比算法,结合拨测拟真,全面提升休市期检测准确率。同时应用健康度评分模型自适应变更范围汇总检测,全面感知变更对业务影响。在变更后先于用户,快速感知潜在风险。
4.1
多模态对比算法结合主动拨测,
开市前及时感知风险
为适配休市期数据流量特点,课题的检测算法框架先应用拨测检验变更相关功能的可用性,通过模拟用户业务操作,产生拟真流量,填补休市期的业务流量空白。将变更前后的指标、日志、告警等数据,统一转换为指标序列,利用两轮筛查,对比各数据特征和差异,综合判断异常模式与异常概率。算法流程如图3所示。
该算法框架有效地降低了对历史数据的依赖,可识别多种运维数据类别的不同异常模式,提升了变更风险感知场景的准确率和敏感度。
图3 休市期变更风险检测算法
4.2
健康度评分模型,变更后全面验证
业务影响
系统变更涉及不同岗位且会影响上下游链路系统,运维人员难以评估变更整体影响。课题依托应用间的拓扑关系,将变更影响范围内的业务和监控项整合,计算各监控项与常态时的健康度差异。再按拓扑网络对不同监控项的健康度进行传播更新并聚集,综合评估本次变更对全局业务的稳定性影响。
该算法可从整体视角统一直观地度量变更风险,提升变更验证时效,避免变更导致上下游或底层异常未被识别,提升风险感知的全面性。
图4 变更风险健康度评估算法
05
变更风险预警质量治理
全面精细的变更风险感知,往往伴随大量的监控告警,给告警响应和分析带来巨大的工作量。运维人员容易疲于验证处理告警,缺少时间和依据去优化底层预警策略,最终恶性循环,增大了关键告警未被及时受理处置的风险。
本课题提出了一套提升预警有效性的变更风险分析框架,闭环风险预警最后一公里。通过变更告警聚合分析提升变更风险处置效率,应用预警检测参数优化与低效告警治理双向提升预警质量,使告警分析有迹可循,预警治理有据可依,提升了变更预警质量与响应分析时效。
5.1
告警聚合分析凸显高风险告警,
辅助变更预警分析
变更过程会产生海量告警,仅依靠运维人工检查和经验判断容易错查漏查。本课题通过识别变更期未恢复与变更后新出现的告警,聚合相关监控数据,对聚合后的事件进行分层分级分类,按照横向时间线和纵向业务调用链路两条线索进行问题根因溯源。最后将分析结果按照根因概率和影响面排序整合。
该算法可极大降低变更相关的告警处理数量,确保真正的问题能在海量告警中被精准识别、快速聚焦,辅助运维人员高效决策。
图5 变更告警聚合分析算法
5.2
强化学习结合告警规则优化,闭环
预警效果治理
各监控平台告警规则存在一定理解门槛,且缺乏统一优化标准。课题建立了变更告警双重优化手段,一方面借助运维人员处理告警的有效性标注,使用强化学习进行自动调参,无需人工介入自适应提升预警精准度。另一方面通过算法学习历史告警特征,筛选出周期性出现、高频快速恢复等低效告警,推动底层告警规则优化治理。双管齐下实现预警效果持续优化运营。
该算法框架兼顾自动与人工的预警质量优化,双重手段推进变更预警准确度提升,可显著降低预警效果治理成本。
图6 变更告警规则优化算法
06
总结与展望
本课题从证券系统变更风险预警的实际痛点出发,构建了一套经验证可复制的智能化变更风险预警技术体系,涵盖了变更前风险防范,变更后异常检测以及变更预警质量治理,让变更质量保障工作从零散走向到统一,从被动式救火转向主动式运营。课题成果已在国信证券金太阳(300606)、集中交易、乾坤运营等重要信息系统落地推广,在业务系统变更量逐年上涨的前提下,故障事件数大幅下降,极大提升了我司的运行质效,为业务的稳定运行与高质量发展保驾护航。
国信证券在推进数字化转型和高质量发展的同时,始终以客户为中心,保障客户交易与资产安全,提供多样个性、稳定高效的金融产品和服务,提升客户服务质量和服务满意度,以专业能力为基石,通过持续的金融科技创新,不断突破传统服务边界股票在线配资公司,为客户创造更多价值。
文章为作者独立观点,不代表股票配资平台观点