日志易:可观测性解决方案——观察易(观察日志怎么弄)

日志易:可观测性解决方案——观察易(观察日志怎么弄)

来源:“鑫智奖”第四届金融数据智能优秀解决方案评选

获奖单位:北京优特捷信息技术有限公司

荣获奖项:运维创新优秀解决方案

一、解决方案简介

观察易是日志易基于自研高性能数据搜索分析引擎Beaver和低代码编程语言SPL(Search Processing Language)自主研发的针对单体应用架构、分布式应用架构的可观测性平台,用于收集、分析、聚合、可视化来自于各类应用运维数据,具备链路追踪、性能分析、日志关联、指标探索以及扩展化运维场景的定制能力。它功能强大,具备对Tracing、Metric以及Logging的统一管理以及关联分析等,无论从应用的观测、监控还是运维排障方面来看,皆具备较强的能力,观察易关注的重点是“可观测性、监控能力以及故障排查效率”。

日志易:可观测性解决方案——观察易(观察日志怎么弄)

二、应用场景痛点简介

简单地说,可观测性就是从应用系统中收集尽可能多的遥测数据,以便您可以调查和解决新的复杂问题。目标是使您的团队能够开始主动观察系统,以便您能够:在影响客户之前解决问题,安全地进行实验并实施优化,更好地管理业务风险。我们可以将它视为系统的一个属性,与功能性、安全性相似。

可观测性是由日志、指标和链路追踪三大支柱去构建的,即遥测数据可以精简为日志,指标和链路追踪。

日志易:可观测性解决方案——观察易(观察日志怎么弄)

日志(Logging):日志展现的是应用运行而产生的事件或者程序在执行的过程中产生的记录,日志可以详细解释系统的运行状态,但是存储和查询需要消耗大量的资源。

指标(Metrics):指标是一种聚合数值,其存储空间小,便于观察系统的状态和趋势,但对于问题定位缺乏细节展示。这个时候使用多维数据结构能增强对于细节的表现力。例如统计一个服务的的平均耗时、请求量等。

链路跟踪(tracing):尽管日志记录了各个事件的细节,可在分布式系统中,日志仍旧存在不足之处。日志记录的事件是孤立的,但是在实际的分布式系统中,不同组件中发生的事件往往存在因果关系。链路跟踪解决了这一问题,通过SpanID等标记可重新构造出事件的完整事件链路以及因果关系。技术人员可以借此了解网格内服务的依赖和调用流程,构建整个网格的服务拓扑并轻松分析出请求中出现的异常点。

三种形式的组合使用将会产生丰富的可观测数据。

三、解决方案亮点介绍

日志易:可观测性解决方案——观察易(观察日志怎么弄)

技术架构图

观察易能够从业务-服务-接口-设备四层维度对应用系统状态进行分析。

1、产品优势

国产自研,安全可控

日志易是国家级专精特新“小巨人”企业,已获得14项技术发明专利、3项外观专利,一直专注于机器大数据平台、服务和解决方案的开发,致力于帮助各行业用户挖掘和利用机器数据价值,提升数字化运营能力,轻松应对IT及业务挑战。

日志易自研的低代码编程语言SPL(Search Processing Language)已实现了300多个函数及指令,全面覆盖日常运维分析和安全分析工作需求,对接了后台多种机器学习算法,实现了智能运维AIOps。此外,日志易还研发出了国内首个高性能高可用性的日志搜索引擎Beaver,每天可处理PB级海量日志,相比国外通用开源搜索引擎来说,Beaver性能提升了10倍且硬件成本降低了50%。

信创生态,行业引领

日志易于2020年加入了信息技术应用创新工作委员会,2021年成为了信息技术应用创新工作委员会WG24大数据工作组副组长单位,已成为华为鲲鹏展翅伙伴计划ISV级认证伙伴,完成了多家信创相关产品兼容性测试并获得互认证,并受邀参与编写国内首个《企业级AIOps实施建议白皮书》与中国信通院牵头制定的智能运维(AIOps)能力成熟度模型系列标准。2021年4月,日志易出版了首本由国内日志分析专家撰写的专业书籍《日志管理与分析》,已经成为该领域的佼佼者。

数据接入模型

观察易分为数据接入和功能使用两部分。

观察易可作为日志易平台上的扩展应用,支持接入全类型日志以便定位故障原因,但是对于接入的链路追踪日志、性能指标需要满足数据模型。只有满足数据模型的数据接入观察易,才可以直接在页面上使用观察易提供的功能。

链路追踪和性能指标,如来自zipkin、jaeger、prometheus的数据,经处理后需要使特定的字段写入指定的索引,以便在观察易页面使用。详细信息如下图所示。

日志易:可观测性解决方案——观察易(观察日志怎么弄)

2.应用场景

运维监控

在“业务至上”的互联网时代,DevOps需要持续监控业务状态,当故障发生时需要快速找到根因并进行修复。观察易能够从业务维度对业务的平均耗时、请求量、错误数、成功率四个黄金指标进行监控,也可以从服务和接口维度对业务的整体状态进行分析。另外,观察易也提供和业务无关的服务监控、接口分析和设备监控,实现更全面的系统可观测性。

链路追踪

伴随企业IT由传统架构向分布式微服务架构转型,复杂单体应用被拆分为多个轻量级服务。由于服务间的独立性,一笔业务会涉及到多个微服务系统。观察易可对接trace日志,实现业务链路追踪,通过观察易的拓扑图、历史回溯和指标趋势图了解业务详情,快速定位故障,让IT运维人员更准确、高效地掌握微服务环境下业务的运行状态。

指标探索

从业务、服务、设备角度来说,侧重的是黄金指标可观测性,如果需要关联黄金指标对比观察或需要关注黄金指标以外的其他指标时,运维人员可以使用观察易的指标探索功能对时序数据进行单指标多维度(平均值、最大值、最小值等)或多指标多维度查询、分析并实现可视化。

故障定位

观察易能够提供标准的起点或图表来帮助运维人员查找问题,分别从业务、服务、接口、设备的概览追踪到其详情,进而结合调用链的span信息或其他日志信息定位到故障原因。

日志易:可观测性解决方案——观察易(观察日志怎么弄)

3.功能介绍

业务:从业务维度梳理系统当前状态,展示业务概况、业务详情,用户可以通过观察到的异常趋势深入探究业务详情,并通过业务拓扑图发现调用服务之间的关系与具体状态。业务拓扑同时支持历史回溯、服务详情、接详情、查看具体异常请求等功能,帮助用户快速完成溯源分析。

服务:从服务维度梳理系统当前状态,从指标趋势和接口分析展示服务概况、服务详情,同时支持下钻到关联设备及调用链信息。

设备:蜂窝状视图让设备关键信息一目了然,点击详情进一步了解设备的相关信息、性能指标和相关服务。

调用链:提供链路追踪查询功能,用户可以使用业务,服务,接口,Local IP,Remote IP,traceID,耗时,请求结果等多种字段对调用链进行过滤。调用链详情展示每个请求的耗时,并能快速跳转至具体日志。

指标探索:用户无需使用SPL编程语言,利用分析区即可完成对指标时序数据的分析与可视化,支持聚合、时移及拆分,获得更深入的分析图表。

1.业务

1)业务总览

业务总览默认展示最近10分钟的业务概况,用户可以自定义时间范围,查看不同时间的业务概况,如业务名称,成功率,请求量,错误数,请求耗时等。

业务查询支持索引动态查询,也支持手动输入。用户可以通过’曲线图'查看时间范围内的业务趋势和最后值。

日志易:可观测性解决方案——观察易(观察日志怎么弄)

2)业务详情

业务详情包括业务拓扑图、拓扑图播放、业务指标趋势图、服务指标趋势图、接口指标趋势图等。

日志易:可观测性解决方案——观察易(观察日志怎么弄)

业务拓扑图展示时间范围内业务调用的服务、服务之间的关系以及服务状态,默认展示服务层。当服务层节点异常时,我们可以通过左下角的数字(数字表示当前层级的节点数)切换到接口层,查看接口状态和指标趋势。

节点使用颜色区分表示健康度,展示该节点状态,支持用户自定义节点状态和成功率的对应关系。

日志易:可观测性解决方案——观察易(观察日志怎么弄)

历史回溯:

历史回溯提供更快捷的方式,播放展示不同时刻的具体链路状态。用户可以设定播放速度,也可以展示任意指定时刻的具体链路状态。

业务指标:

业务指标展示用户选定时间范围内的业务趋势。

节点详情:

节点详情展示节点指标在选定时间范围趋势图。

2.异常请求

异常的定义来自配置→异常关键字。异常请求通过表格形式按时间降序展示选定时间范围内的所有异常请求。点击traceID可查看该请求详情。

日志易:可观测性解决方案——观察易(观察日志怎么弄)

3.调用链

调用链即链路追踪tracing,调用链页面提供链路追踪查询功能,支持使用业务,服务,接口,Local IP,Remote IP,traceID,耗时,请求结果对tracing进行过滤。过滤项下拉框来自对接数据的索引动态查询,也支持手动输入。支持点击traceID查看该tracing的详细信息。

日志易:可观测性解决方案——观察易(观察日志怎么弄)

1)调用链详情

调用链详情展示单个tracing的信息,同时支持进一步查看日志原文,跳转至搜索页。

日志易:可观测性解决方案——观察易(观察日志怎么弄)

4.服务

从服务维度梳理系统状态。包含服务总览和服务详情。

1)服务总览

服务总览默认展示最近10分钟的服务概况,支持自定义时间范围,查看不同时间的业务概况,卡片式展示服务信息,如服务名称,成功率,请求量,错误数,请求耗时等。支持过滤操作。

日志易:可观测性解决方案——观察易(观察日志怎么弄)

2)服务详情

服务详情包括服务指标趋势图:请求量,错误数,平均耗时,成功率。支持滑选功能。用户可以选择查看某个业务的服务详情,也可以查看全部业务的服务详情。

服务详情还包括接口分析,默认展示’平均响应时间最慢TOP10',还可以选择’请求次数最多TOP10','错误次数最多TOP10','成功率最低TOP10',当选择全部接口时,可以搜索某个接口名。

日志易:可观测性解决方案——观察易(观察日志怎么弄)

同时服务页面可跳转至关联的设备、日志及调用链信息页。

5.设备

设备信息由蜂窝图形式构建,不同的颜色代表该设备的健康状态。默认展示最近10分钟的设备使用率的最新值,支持对设备及字段信息过滤筛选,或根据分组字段对设备进行分组。设备类型支持:Hosts和Docker Containers,不同的设备类型对应的展示指标不同。

日志易:可观测性解决方案——观察易(观察日志怎么弄)

单击设备卡片时,展示设备详情:相关信息,相关指标和相关服务。

相关信息展示设备tag值、平均cpu使用率、平均内存使用率。用户可以点击"查看相关日志"跳转至搜索页面查看更多信息。

相关指标展示该设备的性能指标,相关服务展示该设备上运行的服务信息。

6.指标探索

在指标探索页面用户无需使用spl检索语句即可对o11y_metrics索引的时序数据进行分析和可视化,仅仅需要选择数据就可以创建交互式图表,使用聚合、拆分、时移和过滤器深入分析数据。指标探索帮助用户快速识别数据中的异常。

指标探索页面包含三个区域。左侧的"数据"区显示了可用于分析的所有数据源。中间的"数据展示"区是您看到图表表示的数据的地方。右侧的“分析”区列出了可以应用于数据的聚合和分析功能。

1)图表与分析

指标探索页支持用户创建一个新图表或向现有图表添加数据。每个图表都包含基于至少一项汇总的一个或多个时间序列。将鼠标悬停在图表上的任意点可以查看相应的值。支持多个数据可以在同一个图表中展示。

日志易:可观测性解决方案——观察易(观察日志怎么弄)

在"分析"区配置分析功能和操作,用户借此从图表中获得洞察力。所有分析功能都会在后台生成SPL,可以点击图表中的"在搜索中打开"图标查看对应的spl。

聚合

图标展示中的图表包含基于汇总数据的时间序列。为了计算聚合,将相同近似时间范围内的数据点分类为存储桶。汇总是根据同一存储桶中的数据点计算得出的。存储桶大小或跨度将根据用户指定的时间范围自动配置。增加时间范围会导致跨度自动增加。

指标探索页支持向图表添加多个时间序列,以查看数据的不同汇总。用户可以为某一个数据选择avg(默认聚合方式)、max、min、sum、count等多种聚合方式。

日志易:可观测性解决方案——观察易(观察日志怎么弄)

拆分

指标探索页支持按维度拆分时间序列,以查看每个维度值的单独时间序列。按维度拆分时间序列会显示所选时间范围内的维度值。

日志易:可观测性解决方案——观察易(观察日志怎么弄)

时移

通过改变选取时间范围来对比数据随时间的变化情况。

日志易:可观测性解决方案——观察易(观察日志怎么弄)

实现价值

多维度服务分析

从指标趋势和接口分析展示服务信息;支持下钻到关联设备及调用链信息。

全局设备总览

设备关键信息采用蜂窝状视图展示,性能指标和相关服务一目了然。

多功能指标探索

完成对指标时序数据的分析与可视化;支持聚合、时移及拆分。

实时业务监控

通过异常趋势深入探究业务详情;凭借业务拓扑图发现服务之间的调用关系与具体状态。

链路追踪查询

通过多种字段对调用链进行过滤查询;实时展示每个请求的耗时并快速跳转至具体日志。

四、客户评价

日志易的观察易在聚合时可以细化到节点级别。集群或微服务往往都是分布部署的,观察易拓扑图能够显示3层,每层展示的颗粒度都可配置。例如我们,第一层是业务系统,第二层是各模块集群,第三层就是模块节点,可以自定义设置层次,不断放大。

——某大型股份制银行IT负责人

使用观察易,数据治理的问题能够一起解决,大部分不需要修改日志格式。我们引入了观察易数据模型,只需要接入链路日志,然后在日志易数据工厂进行重命名和聚合等操作,即可完成数据接入,方便快捷。一则数据工厂支持很多span相关的算子,帮助梳理链路;二则数据工厂可以实现大数据量的实时处理,加快聚合得出指标的进程。

——某大型城商行IT负责人

更多金融科技案例和金融数据智能优秀解决方案,请登录数字金融创新知识服务平台-金科创新社官网案例库、选型库查看。

相关新闻

联系我们
联系我们
公众号
公众号
在线咨询
分享本页
返回顶部