集链路追踪、应用性能和业务数据于一体的全栈监控平台,实时、全方位掌控业务和资源健康状况,帮助用户实现全栈性能监控与端到端追踪诊断,提高监控效率,降低运维复杂性与工作量。
产品特点
数据全量采集
前端设备到后端设备数据全量采集并打通,轻松梳理服务依赖关系。
故障精准定位
一站式调用链追踪分析,为故障定位提供详细参考数据,问题定位更高效、更精准。
问题直观呈现
对采集到的数据进行自动化汇总、聚合和统计,最终以多种视图展现,更加直观。
产品功能
数据采集
通过Agent进行数据采集,提供从基础设施层、中间层、应用层三层级的全栈资源监控,监控性能指标包括CPU使用率、内存占有率、网络带宽、磁盘IO、每分钟请求数、平均响应延时(ms)等。支持微服务架构下对业务进行请求跟踪的trace监控,可以监控到所有请求的调用链,数据采集更全面。
数据分析
关联分析:分析分布式系统的每一次系统调用、消息发送、缓存访问、数据库访问和关联的监控数据。
层级分析:体系化的监控三层级(基础层、中间层、业务层)分析确保了在复杂微服务架构下每个部分的高度可见性。
根因分析:利用算法对监控指标进行快速诊断与识别,输出推荐结果辅助运维人员排查问题。
趋势分析:通过基于历史比较、健康状况和资源情况的事件关联,在问题发生前进行预测和预防性提示。
事件中心
告警管理:将事件发送到消息服务队列、函数计算、日志服务等多种方式实现事件的自动告警,支持短信、微信、钉钉、邮件的方式以致命、预警、提醒分类的告警级别通知到运维人员,并完成工单对接反馈,最终实现面向告警事件的全生命周期闭环管控。
事件管理:按照告警级别对问题事件进行汇总和分级管理,并以统一列表、日志模式展示,便于问题事件收集分析。
拓扑管理
支持定义节点类型,以直观图例展现节点类型,管理更加便捷。业务全链路监控拓扑图将业务的所有调用链关系信息集中展现,提供关联的系统及其指标聚合展示,可以知悉应用被哪些服务依赖、依赖了哪些下游服务以及整体健康度等,直观感受整体和局部性能状况。
配置及报表管理
支持自定义监控指标,多种规则创建完成后,可随时启用、停止、删除;对告警任务实行统一管理,便于及时跟踪及问题反馈;支持自定义报表模板,并对报表任务执行统一管理。
可视化展示
自动更新展示资源的运行状态和健康状况,通过全链路监控大屏和丰富的图表分析,帮助运维人员随时掌握业务健康状况,确保用户获得最佳体验。