赋能互联网级运维能力 云智慧的数字化之道与术

互联网 | 编辑: 张梅洁 2018-07-12 15:40:54转载

云智慧,一家有“两条”业务主线的企业。一明一暗,明线代表业务逻辑,遵循数字化企业发展之道,暗线代表技术传承,为企业IT能力的升级进行赋能。在其业务逻辑中:运维,不再局限于冰凉的机房,而是支撑企业数字化转型的控制中枢,并关乎企业各类顶级业务指标的完成。

云智慧,一家有“两条”业务主线的企业。一明一暗,明线代表业务逻辑,遵循数字化企业发展之道,暗线代表技术传承,为企业IT能力的升级进行赋能。在其业务逻辑中:运维,不再局限于冰凉的机房,而是支撑企业数字化转型的控制中枢,并关乎企业各类顶级业务指标的完成。

当然,支撑云智慧业务逻辑的是其技术传承。强大的数据分析能力,使业务运行中的任何缓慢、异常、中断都可迅速定位并追因溯源,而商用化的AIOps能力,也可帮助运维人员化被动为主动,实现运维的最高理想。

10年3阶段,从IT运维到业务运维

简述云智慧的发展历史,一直延续清晰的路径发展。公司成立于2009年,恰逢互联网经济潮起,推出的第一款网络性能监控SaaS产品“监控宝”,通过解决中小网站的可用性痛点,迅速成为现象级SaaS产品,在零营销、零地推、完全依靠口碑传播的情况下,3年之内累积30万企业用户,并籍此获得了数百万美元的A轮融资。

云智慧总裁刘洪涛

2013年,移动化、企业上云成为IT发展主旋律,云智慧进军APM(应用性能管理)领域,推出“透视宝”。“云智慧是国内第一家实现端到端应用性能追踪,并做到APM数据全量采集的企业,即用户的每一次点击,每一条访问路径都可准确记录和重现。”云智慧总裁刘洪涛说,云智慧APM获得了市场的广泛认可,并陆续完成B轮和B+轮融资。

2016年,是云智慧发展的历史转折点,从依靠工具化产品服务中小企业客户,转变为通过“业务运维”为大型企业用户提供一体化运维管理解决方案,推出智能业务运维平台DOCP(Digital Operation Central Platform),并以此为基础将产品和服务延展至智能运维(AIOps)领域。

一明线一暗线,云智慧发展的道与术

做个形象的比喻:如果说传统运维工具是螺丝刀,那么“监控宝”就是电动螺丝刀、“透视宝”是带诊断能力的电动工具套装,但具有智能运维能力的“DOCP平台”再度升级成为综合维修中心。

“北美用户自身具有较强的IT能力,更愿意采购工具类产品,而中国用户则希望借助‘平台+服务’整体解决具体业务场景中的全部问题。”刘洪涛说,“这是云智慧用过去八年时间,因循数字化经济发展的趋势,不断探索、积累,逐步发展起来的业务运维之道。”

云智慧DOCP产品和解决方案矩阵

当然,云智慧的发展还延续一条暗线,即始终遵循“数据基因”为企业提供运维服务。超海量数据采集和实时处理能力,已经成为云智慧产品的竞争优势和差异化特征。因为,只有数据才能揭示用户行为的业务逻辑,基于业务数据的运维服务,才可上升至业务层面。

当然,从业务运维进一步演进到AIOps领域,更需要完备的平台体系进行支撑,而云智慧也不断把更先进的ABC(A即AI、B即Big Data、C即Cloud)基因融入业务运维之道,形成更有效、更贴合企业发展需求的数字化转型之术。

何为业务运维?

回顾历史只是为了梳理云智慧的业务传承、技术传承,而本文则更关注现阶段该公司的战略重点,即运维如何与业务产生关联?又如何支撑企业数字化转型?

互联网企业的IT系统就是业务系统,所以IT系统运维就是业务系统运维。传统企业从互联网+转型开始学习此模式将近十年,到了数字化时代的挑战反而越来越大。为何?

首先,能力不足,思维不同。传统企业的运维部门,其能力难以支撑互联网级别的业务运维。数字化不能局限于传统运维的机房之内,其考核指标也不是设备故障率,而是销售收入、客户转化率、成本控制、风险管控等业务指标。

其次,传统企业还背负着过去十几年、甚至二十多年逐步建设起来的信息化“包袱”,新系统必须与老系统进行对接和串联,一系列兼容之后,业务系统架构反而更复杂,运维压力自然就更加沉重。

这既是传统企业进行数字化转型的痛点所在,也是云智慧智能业务运维的核心价值,即打破传统运维的边界,不再仅面对冷冰冰的IT设备,而是对实实在在的业务指标负责。

顺藤摸瓜还是顺瓜摸藤

如果把传统IT运维的工作模式比作顺藤摸瓜,那么云智慧智能业务运维的逻辑就是顺瓜摸藤,二者有什么区别?

举例说明,某大型餐饮连锁企业,会员在线交易量突降10%,这是非常典型的数字化业务场景。

如果业务下降到零,那是系统可用性问题,依托现有运维监控系统能够快速定位。但只下降10%,就很难从海量告警信息中发现异常,面对数十种应用系统,数万台关联IT设备,用顺藤摸瓜的方式逐一排查底层设备,至少要花费一周的时间,足以造成巨大的业务损失。

对此,刘洪涛解释了业务运维“顺瓜摸藤”的操作逻辑,“首先,根据业务指标监测可以第一时间发现异常。然后,通过业务逻辑拓扑快速定位与会员消费关联的数个应用系统是否正常。如果正常,进一步检测关联的数据库、中间件、操作系统的运行状态,如果上述两层均未发现问题,才需检测底层服务器、存储、网络等基础设备。”

“顺着业务到IT的这条线追踪下来,我们只用了一个小时就追溯到故障点,一块硬盘满了,导致服务器响应速度变慢,造成第三方支付接口处理超时。” 刘洪涛说。由此可见,业务运维的行为逻辑已经颠覆,传统运维思维是自下而上的顺藤摸瓜,而业务运维思维的自上而下的顺瓜摸藤。在业务运维体系中,任何影响业务指标的故障,都会变为最高级别的服务响应事件,第一时间进行上报和处置。

以数据勾勒业务逻辑

而如何实现业务运维?简单解释,就如血液,时时刻刻向人体五脏六腑供给能量。再复杂的IT架构,再复杂的业务系统,都是由数据组成,也是由数据进行串联。由此,业务运维不再寻求将各系统进行紧密耦合,而是通过数据,勾勒重现企业的业务逻辑。

云智慧DOCP全面接入企业IT监控数据,以及APP、浏览器端用户体验数据,和业务系统的指标数据。这些数据既是数字化企业的核心资产,也是重现企业业务逻辑的基因代码。任何影响系统、影响业务的蛛丝马迹,均可通过数据分析纤毫毕现。

由此,云智慧可针对IT系统进行立体化的实时监控,提供故障发现、智能告警等运维服务。进而将业务指标与IT指标进行关联,基于数据流动路径,勾勒业务拓扑结构,提供业务效能分析等数据运营支持。

从业务运维到AIOps

其实,AI在运维领域落地有先天的优势。诸多流行AI场景的底层数据支离破碎,并不足以支撑上层人工智能的效果展现,但在运维场景中,每层的数据都相当完整。“广义来看,自动化运维也属于AIOps范畴,但人工智能这项伟大的技术,只落地在自动化运维,未免太屈才。人工智能在业务层面帮助客户,才是真正价值的体现。”刘洪涛说。

当然,也正是因为云智慧始终以业务为核心,利用AI技术率先在业务运维解决方案应用,并成功在多个行业和场景中落地,其上升空间则仍具广阔前景。 

刘洪涛说:“AIOps突破了传统运维管理的权责限制。在设备层面,AIOps可通过大数据和机器学习,分析故障之间的关联度,在关键故障发生前实现‘预警’;而在业务层面,AIOps依托业务运维平台深挖IT指标背后的数字化业务影响,实现IT与业务的双向驱动,用数字化KPI导向的智能化决策逐步取代拍脑门式的人工决策,并最终实现业务 ‘预测’。”

最后,刘洪涛表示,实现“预警”和“预测”是很多运维科技企业的理想,“而云智慧已经将这一理想落地,并首先达到可商业化程度。未来,我们的目标是通过智能运维,让中国企业具备互联网级运维和运维能力!”


相关阅读

每日精选

点击查看更多

首页 手机 数码相机 笔记本 游戏 DIY硬件 硬件外设 办公中心 数字家电 平板电脑