导读:
随着多云产品、电信O3和IDC网管的不断发展,采控产品在应对业务场景多样化和规模交付的同时,产品易用性、数据复用性问题愈发显得捉襟见肘。同时,各项目组人员储备和经验参差不齐,急需一套可行的方案来促成快速交付。
采控产品由传统激活演进而来,无论是初期承接的移网/家宽,还是近期的专线接入、IDC和多云,本质上都是通过对接网元/平台/设备,进行数据下发或获取,以达成业务开通或业务查询的目的。能力封装,是对外提供封装的服务能力,内部根据业务场景进行拆分,转换为不同内容和顺序的交互指令。
差异化屏蔽,是对底层访问对象的统一转换,屏蔽不同厂家/型号的差异,具体细节由产品自身消化。
共性的概念可以快速适配各种请求,这是一个抽象化的过程。由于上述的产品特性,给项目的快速交付落地带来许多难以解决的问题。接口类型繁多。客观上,采控需要对接各类型的系统和接口,需要更多地思考如何降低接入成本。
业务范围广。随着行业快速发展,市场期望越来越高,承接的业务范围不断扩充,场景持续丰富。
性能稳定性要求高。采控类项目往往伴随高并发、低时延。
运维耗时长。许多优秀的平台都能解决容器化部署/批量运维的问题,但采控对接的对象,往往跟调度规则相关,无法满足微服务的无状态特性。另外,服务的通信连接上,有地址、端口、连接数等限制,且服务需放到各个地区的前置网络中,无法理想化地进行容器化部署。
异常修复慢。产品已有的监控功能可以实现数据分层钻取,但过于零散和技术化的日志语言,明显对运维人员是不友好的。
批量交付多。多云产品将迎来爆发期,对于批量交付存在可复用和全新云平台两种情况。前者关注如何高效地调试和验证,后者的难点在于如何分析新场景,按以往经验,业务分析验证耗时至少占整个交付周期的1/3。
什么是快速交付,或者说快速交付都包含哪些内容,快速交付等同DevOps吗?让我们先来看下什么是DevOps。一个软件从零开始到最终交付,包括以下几个阶段:产品规划、开发编码、构建、QA测试、发布、部署和维护。目前的DevOps已经演进成一个“端到端”的概念,如下图:
DevOps 除了打破研发与运维边界,还会打破业务与IT系统的边界,构建从业务-IT-运营全链路的Biz DevOps。那么,能否借鉴这个理念,从业务、产品研发、运维等不同方面,来提升我们的产品能力,进而加速交付?比如业务上的需求调研与分析、产品研发上的业务实现、运维上的版本发布和维护,分别从这几个角度入手,制定相应规范、流程和辅助工具,从而达到交付提速的目的。基于上述内容,本文想从产品能力整合的角度,来探索如何解决快速交付的问题。从业务接入、安装调测、运维能力三个方面入手,解决交付现状中遇到的门槛高、期望高、成本高问题。
针对上述三个问题,我们总结出以下方案,配套不同维度的助手,各个击破。
为避免耗费人力在资源评估流程上,产品基于业务沉淀提供测算工具和部署指导。测算工具为问卷式的流程向导,根据使用者回答的环境要求、平台类型、平台实例数、用户规模、访问量、策略需求等自动计算资源。
计算完则生成一份评估报告,推荐合适的资源配置、部署架构图、应用配置等,使用者可直接将其作为产品安装范本。
采控承接的平台种类非常多,多云平台版本多达数十种,云调设备型号近千种。采控产品从版本、场景、能力等多个维度,进行灵活性、复用性分析,归纳为以下两类:针对这类情况,采控平台提供云业务仓库视图,该仓库汇聚各云平台及其版本和场景,提炼出以云平台业务包为维度的智能筛选、呈现、维护、导出、导入等功能。新项目需加载该仓库中已有场景时,可通过业务包的导入导出功能快速实现新业务加载。场景包导入后,根据现场的个性化差异进行微小调整,即可转入业务验证和问题修复,大大节省业务分析/加载成本。
针对未承接的场景,采控平台提供两类途径实现业务快速加载。基于相似的业务包迭代
此方式可以通过云业务仓库的智能筛选,选择期望的云平台场景,再导出到其他环境进行修改验证,通过后又可以反过来添加/丰富云仓库。
使用新业务接入助手
如果是全新版本,系统提供快速接入助手,解决概念晦涩难懂、门槛高的问题。可直接在系统中调测相关指令,调测结束后可自动分析转换成具体的场景,无缝切换到系统模型配置中,屏蔽关联关系。最后将自动分析的场景进行模拟验证,快速实现新业务加载。
系统安装需要对个性化参数进行调整,然后才能正常运行。从应用配置角度看,可分为内外部两类:包括网元/采集源连接信息,云管平台信息等,这些数据有两种配置模式:独立运行模式
该模式用于项目前期,比如客户演示、应标等。需要手工录入网元/采集源信息,手工发起策略或工单,通过监控页面实现全流程的监控。
依托云管模式
采控平台结合云管产品一块落地,网元/采集源的部分数值来自云管平台。
拿云调项目举例,服务实例数量近千,平台提供部署插件,配合测算工具自动生成的配置项清单,选择目标机器,填写路径和实例个数,一键完成应用安装。
产品安装后可从运行环境、业务配置两个维度进行预检,以确保可用性。对中间件和应用模块的状态进行探测,例如通过对数据库、消息队列等进行端口状态监测,对应用服务的日志内容进行过滤匹配,确保环境可用性。完成环境自检后会生成对应的检测报告,展示中间件及应用的状态信息,并列出系统环境存在的异常问题,同时尝试自动修复,如应用宕机可通过脚本调用进行重启。对于需要人工介入修复的异常,报告将列出具体问题并提供相应的修复指引。
2)业务配置检查
产品提供业务回归测试入口。使用者可以选择全场景覆盖测试,根据清单对每个平台场景逐一检查。例如平台资源/性能的采集,系统自动建立一个采集策略并即时执行,对于控制业务,则生成各场景的控制请求进行DryRun测试,校验业务正确性。各环节抛出的详细报错只适用于专业技术人员,需要将晦涩的异常内核“翻译”成运维/业务人员也能理解的白话文。产品内置一套完整的异常管理体系,根据对象、位置和时间等,对异常信息进行多维度划分,经过层层匹配,抽象出异常类型,最终展示一或多个可能的异常场景,并针对每个场景提供修复指引。根据以上思路,采控已实现部分功能/工具,并在多云采控和云调IDC等项目中发挥着重要作用。目前累计对接多云项目7个,云平台35套,基础设施设备1W+。预期22年网络接入仍会聚焦在云平台和IDC设备上,新接入/升级云平台数>40套,新接入IDC设备>30W台。随着未来多云、IDC采集等项目的快速增长,可以释放更多的人力,团队可以更专注于产品能力和业务沉淀。同时,方案体系在不断完善之后,未来也可以给其他产品提供一些思路参考,力求最大化降本提效。