数仓指标体系搭建实战

正文

曹雷 | 作者

滴滴技术 | 来源

指标体系

1. 痛点分析

业务、技术、产品

业务视角

业务分析场景指标、维度不明确;

频繁的需求变更和反复迭代,数据报表臃肿,数据参差不齐;

用户分析具体业务问题找数据、核对确认数据成本较高。

技术视角

指标定义,指标命名混乱,指标不唯一,指标维护口径不一致;

指标生产,重复建设;数据汇算成本较高;

指标消费,数据出口不统一,重复输出,输出口径不一致;

产品视角

缺乏系统产品化支持从生产到消费数据流没有系统产品层面打通;

2. 管理目标

技术目标

统一指标和维度管理,指标命名、计算口径、统计来源唯一, 维度定义规范、维度值一致

业务目标

产品目标

3. 模型架构

docx image

业务线

业务板块定义原则

例如滴滴出行领域业务逻辑层面两轮车和四轮车都属于出行领域可抽象出行业务板块(level一级),根据物理组织架构层面在进行细分普惠、网约车、出租车、顺风车(level二级),后续根据实际业务需求可在细分,网约车可细分独乘、合乘,普惠可细分单车、企业级。

规范定义

数据域

指面向业务分析,将业务过程或者维度进行抽象的集合

业务过程

指公司的业务活动事件

时间周期

用来明确统计的时间范围或者时间点

修饰类型

是对修饰词的一种抽象划分

修饰词

指的是统计维度以外指标的业务场景限定抽象

度量/原子指标

基于某一业务事件行为下的度量,是业务定义中不可再拆分的指标,

维度

维度是度量的环境,用来反映业务的一类属性

维度属性

维度属性隶属于一个维度,如地理维度里面的国家名称、国家ID、省份名称等都属于维度属性。

原子指标、派生指标、衍生指标

原子指标

派生指标

事务型指标:是指对业务过程进行衡量的指标。例如,呼单量、订单支付金额,这类指标需要维护原子指标以及修饰词,在此基础上创建派生指标。

存量型指标:

是指对实体对象(如司机、乘客)某些状态的统计,例如注册司机总数、注册乘客总数,这类指标需要维护原子指标以及修饰词,在此基础上创建派生指标,对应的时间周期一般为“历史截止当前某个时间”。

衍生指标

模型设计

维度建模方法

指标体系在数仓物理实现层面主要是结合数仓模型分层架构进行指导建设,

docx image

维度管理

包括基础信息和技术信息,由不同角色进行维护管理。

由业务管理人员、数据产品或BI分析师维护

由数据研发维护

指标管理

包括基础信息、技术信息和衍生信息,由不同角色进行维护管理。

由业务管理人员、数据产品或BI分析师维护

由数据研发进行维护

便于用户查询指标被哪些其它指标和数据应用使用

原子指标定义归属信息 + 基本信息 + 业务场景信息派生指标定义时间周期 + 修饰词集合 + 原子指标修饰类型主要包含类型说明、统计算法说明、数据源(可选)

5. 指标体系建设流程

建模流程

从业务视角指导

docx image

分析数据体系是模型架构中汇总事实表的物理集合,业务逻辑层面根据业务分析对象或场景进行指标体系抽象沉淀。指标分类主要是根据实际业务过程进行抽象分类,

开发流程

开发流程是从技术视角指导工程师进行指标体系生产、运维及质量管控,

docx image

6. 指标体系图谱建设

指标体系图谱概述

依据实际业务场景抽象业务分析实体,整合梳理实体涉及的业务分类、分析指标和维度的集合。

建设目的:

对于用户:

便于用户能够快速定位所需指标和维度,同时通过业务场景化沉淀指标体系,能够快速触达用户数据诉求。

对于研发:

利于后续指标生产模型设计、数据内容边界化、数据体系建设迭代量化和数据资产的落地。

指标体系图谱模型

docx image

指标体系图谱实例

docx image

指标体系产品化

docx image

建设的核心原则是“轻标准、重场景,从管控式到服务式”

和指标体系方法论强相关产品就是指标字典工具的落地,

支撑指标管理规范从方法到落地的工具,自动生成规范指标,解决指标名称混乱、指标不唯一的问题,消除数据的二义性

统一对外提供标准的指标口径和元数据信息

docx image

工具设计流程 (方法论->定义->生产->消费)

docx image

指标定义

docx image

指标生产

结束语

文章整体介绍了指标体系建设方法论&实践和工具产品的建设情况,指标字典和开发工具已实现流程打通,与数据消费产品的打通后续会通过DataAPI方式提供数据服务。

–END–

docx image

© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容