汇金资损防控体系建设及实践 | 得物技术

归类:AI&数据 编辑:技术运营 2025-07-01 14:27:09

一、为什么要做资损防控

随着互联网电商平台竞争的加剧,各平台的业务复杂度不断提升,线上环境的稳定性面临更大挑战。在汇金领域,由于其高资金属性,除了确保链路可用性达到99%以上,防止资损亦成为关键保障事项。得物汇金业务涉及复杂的资金流和大额资金敞口,因此实施资损防控尤为重要。

  • 防资损、资金安全

  • 保障企业财务健康:

    资损防控措施能有效识别和应对风险,保护企业现金流和资产,维护股东投资收益。

  • 降低风险敞口:

    面对市场波动和欺诈等风险,实施资损防控能显著减少对企业财务的负面影响。

  • 增强抵御危机能力:

    在经济不确定或突发事件(如市场崩溃、疫情等)发生时,稳健的防控措施帮助企业保持资金流动性和安全性。

  • 防客诉

  • 提升客户信任:

    资损防控有助于提高服务质量和客户满意度,降低资金管理不当造成的风险,从而增强客户信任。

  • 减少客户投诉:

    不当的资金管理可能引发服务延误和错误收费,良好的防控措施可避免这些问题,确保客户顺畅的服务体验。

  • 维护品牌声誉:

    客户投诉频繁会影响品牌形象,实施有效的资损防控可保持良好的客户关系,并促进长期发展。

经过不断的演进与发展,我们已经沉淀出一套汇金资损防控体系的方法论,并在实践中取得了一定成效。因此,我们希望通过知识梳理与分享,鼓励大家共同交流学习,持续推进资损防控的提升与优化。

二、如何做资损防控

整体方案:

79af8f1bb300f7e598827e51a676af2c.png

开展思路:

根据平台特性,涉及到交易和资金流,就会考虑到是否会发生资损,那么如何避免产生资损,总结出一套适合业务特点的方法便成为资损防控的关键。汇金平台和业界内的其他平台采用的资损防控方法论基本一致,但是不同的每个阶段所覆盖的产出的内容不一样。

11bf47e05d1c4bce519292ab104c37a9.png
从项目全生命周期来看,已发布时间和出现问题时间为时间点,发布时间前的阶段为事前阶段,出现问题的时间点为事中阶段,出现问题后应急响应为事后阶段。

  • 事前
  • 阶段:项目发布前的时间段,在这段时间内会经历需求评审、研发设计评审、测试用例评审、稳定性项目评审,我们要从4个关键事项对焦如何从需求、代码、线上核对/监控等发现手段上做到防资损、及时发现资损问题。
  • 关注的内容:需求层面,挖掘是否直接涉及资金流,或间接涉及资金流,如果涉及资金流,了解资金如何进行流转,进而挖掘到资金流涉及的上下游。技术设计或编码层面,实现资金计算的逻辑、计算公式,明确上下游之间的资金交互元素、金额/币种/单位,持久化资金数据,异常监控报警逻辑,业务单据幂等逻辑,资金平衡校验等。测试层面,从正常流程和异常流程验证代码实现逻辑是否符合预期,如资金计算、金额大小、方向、币种、单位,上下游传递,数据存储等,基于验收通过后的逻辑编写自动化,自动化要核对金额的正确性,用编写自动化目的是为了沉淀资金场景的测试手段,为后续迭代改造的保证质量及提高效率。
  • 事中
  • 阶段:生产环境出现问题的阶段,对于不同的问题发现有不同要求,重资损链路要做到1分钟发现,即系统出现问题后1分钟发现,系统有告警。从系统告警后5分钟内介入做出响应,即5分钟内有人看到告警并进行跟进。所以重资损链路的问题要做到1-5。非资损链路可做到D+1发现,D+1介入和修复即可,相比资损链路而言,发现能力没有太强要求。如果没有问题的发现能力,最终可能会导致资损的慢性流血发生。不论线下环境如何测试,都很难保障测试环境100%覆盖,所以线上问题的主动发现能力尤为重要。
  • 关注的内容:系统出现问题后,是否有实时或者非实时的告警能力。对于告警内容,要根据业务优先级及系统实现,编写实时/非实时核对脚本。如果业务复杂性高,可以编写抽检脚本,就是系统实现的重算逻辑,从旁路发现问题。那么如何验证脚本有效性,发现问题是否进行报警,就要进行攻防演练。通过演练,可以检查是否具备问题的能力,以及开发的响应能力,如果不达标,要进行改进和优化直到达标。
  • 事后
  • 阶段:发现问题后的止血阶段。一般分为两方面:当前问题的扼制,不再新增问题;存量问题的解决。止血应急能力要有相应的预案或者建立新的应急能力。如果止血比较快,能降低问题的影响,如果止血比较慢,可能会扩大问题的影响,提高问题的严重等级。
  • 关注的内容:对于资损问题要做到10分钟的止血,从发现问题到消除增量问题产生,要在10分钟内解决。对于存量问题的解决,可根据业务特性,在相应时效内修复即可。在修复前可以通过挂公告的方法,暂时消除或者降低问题事态的影响。对于比较核心或者比较固定的问题,可以形成执行预案,当发现问题后,可及时执行预案进行问题止血。对于比较复杂的业务,要根据不同的问题及时进行编码修复问题。不管是进行代码或者编写预案代码,如果涉及代码修复,开发测试均要参与保证代码的正确性。如果只是一个角色进行修复,可能会因为预案问题导致的二次事故发生。

三、资损防控产出阶段

对于项目实施阶段,当承接新功能、新建系统或者分析存量系统时,如何判定是否要做资损防控,可以从两个角度出发分析:信息流或者资金流。资金流和信息流之间是相互依赖的。当业务需求中涉及资金流时,系统要实现业务需求,那么系统之间就要设计信息如何流转最终完成资金流转。当系统中存在资金字段的信息流时,可最终推导出直接或者间接的资金流。资金流通过信息流实现资金流转,信息流是资金流转的载体。所以当信息流中存储或者涉及资金交互,资金传递时,就要做资损防控,分析资损场景及如何编写资损脚本。

525e851a8659d8ec893a0c7851cff1d7.png

对于项目发布后阶段,当项目前期如果没有做资损防控,那么也可以从线上稳定性来看是否要做资损防控。一般可以从线上故障、线上工单等结果分析需要做的资损场景有哪些。从线上问题来看可以比较直观的看到缺少哪些防控手段并做针对性的补充,这样能起到立竿见影的效果。这种是从问题点切入的方法进行分析跟进,但比较好的做法是从面上进行分析,集合需求、问题全面分析,从多个点同时作为抓手判定资损防控的必要。

cb8f1ce9b764c70d27294e1f5c4d3369.jpg

以上两个方法,均在汇金域进行了实践,在项目发布前和发布后都会进行资损防控补充。

四、如何挖掘及度量资损防控规则

当要实施资损防控时,如何挖掘实施资损规则变得尤为重要。当规则挖掘的不对或者偏少,不利于及时发现问题。当规则过多时,对规则的投入成本会变高,规则保鲜会成为挑战,最终也会影响到发现问题的及时性。

那么如何比较全面的挖掘资损规则呢?目前汇金域从三方面切入,分析资损规则并推进资损防控覆盖的成熟度度量。我们从这3方面进行资损规则分析并编写规则脚本,完成资损布防。

  • 资损字段覆盖度量
  • 业务指标覆盖度量
  • 跨域资金安全覆盖度量

dc395651b18e79cd56acb45d9ef88e8a.png
资损字段覆盖【字段】

当系统链路涉及的数据库有资损字段时,在Dcheck平台上做资损字段标记,资损字段标记资损,非资损字段标记非资损。从字段上挖掘到要有资损规则覆盖。当在Dcheck上编写完对应规则后,要进行字段和规则的绑定,维护字段和规则之间的关联关系,这样也可以在报表上看出来资损字段是否有对应的线上布防能力。

字段层面覆盖是比较简单可以做到的资损规则分析,常见的资损字段如金额、币种、单位、汇率、计算公式、数量、日期、状态等。如果链路中涉及这些字段,都可以进行对应的规则实施和布防。一般此类字段覆盖的规则可以通过实时核对实现,这种正确性时效要求比较高,如果存储不正确也比较容易发现问题。资损字段覆盖是比较入门并快速上手的手段,但不能作为发现全部资损问题的手段之一。除此之外,还需要通过其他方式挖掘规则。比如字段内容正确,但是其他指标异动方面较大有影响,这种从字段覆盖层面无法发现问题。
b502bad9820addf7daf22186bca439f3.png

业务指标/场景覆盖【业务】

不同的业务域关注的指标不一样,但可以通过观测这些指标可以发现潜在的问题,进而避免可能产出的投诉或者扩大影响。常见的业务指标比如:时效性巡检、成功率异动巡检、失败率异动巡检、中间态异动巡检或者其他指标异常巡检。通过对这些指标的监控覆盖,可以补全数据正确但系统有问题的发现手段。一般业务指标类的覆盖时效性不高,非实时核对方式实现,可能是D+h或者离线D+1方式实现。

a65476ad1b339c9288dadc28f16c0df7.png

上下游资金安全覆盖【跨域】

资损字段或者业务指标覆盖,更多的是聚焦在内部的稳定性上面,对于和外部间资金覆盖较少。当然资损字段可能也会涉及到外部之间的核对,但上下游之间的资金安全覆盖会涉及更多,可能是直接的上下游资金覆盖,或者全链路上的非直接上下游的资金场景覆盖。常见场景如:下单支付场景,订单域的支付金额和支付域的金额、状态一致性check,各种费用项的一致性校验;采购结算付款链路,付款场景下的金额要和采购结算单据的金额币种保持一致等。通过在发生资金流转的时间,做上下游资金安全check,能和业务侧的金额做校验,进而保证流转的资金安全。

278a965c80f59c74592f4788f7cd192c.png

业务域度量探索实践效果

  • 建立核对场景分层覆盖策略,围绕字段/业务/跨域开展。
  • 探索定义各层级的度量方法,并在各子域实践落地,经过与对应功能开发owner对焦,确定了度量方式的有效性。

关于我们

得物App是全球领先的集正品潮流电商和潮流生活社区于一体的新一代潮流网购社区。

得物App在传统电商模式的基础上增加鉴别真假与查验瑕疵的服务,以强中心化平台定位深入管理把控全程:严格的商品上架标准、更公平的竞价交易机制、统一履约交付和尽心高效的客服沟通等流程体验。同时作为年轻人的潮流生活社区,得物App社区通过持续沉淀潮流话题内容,正在成为年轻用户的潮流风向标和发声阵地。

得物App聚集了一大批热爱球鞋、潮品穿搭和潮流文化的爱好者,话题讨论集中在球鞋、潮牌、手办、街头文化、汽车腕表和时尚艺术等年轻人关注的热点话题。得物App正在成为中国潮流文化发展的土壤。

  • 得物技术公众号
  • 得物社会招聘