数仓主题域与主题划分

这次我会结合本人数仓工作实践总结的经验来聊聊数仓主题域划分,同时会引申出主题划分,和数据域是什么,业务过程等。

这个对于大数据数仓工程师来说是必备的能力,比如当你面临着一个新业务的开启,需要从0到1开始搭建数据仓库或者数据集市,这时候就要考虑到主题域和主题的合理划分。

当然本次分享的内容都是从个人实际出发,有疑问或者反馈可以通过关注公众号留言共同探讨,感谢关注。

1. 业务调研

2. 主题域划分

3. 主题划分

4. 输出总线矩阵

5. 数仓分层设计模型表

6. 数仓公共层表迭代升级

下面结合本人对搬家业务的数仓建设,进行主题域划分和主题划分实践,当然项目的大小决定着这是一个小型的数据集市 还是 企业级的数据仓库。

数仓主题域:主题域通常是联系较为紧密的数据主题的集合,根据业务需求分析的视角进行划分抽象归类。

划分方法:主题域划分的方法一般有几种

要么按照业务过程来划分,一个业务过程抽象出一个主题域,比如业务系统中的商品、交易、物流 等

要么按照业务部门来划分,一个业务部门抽象出一个主题域,比如中台部门、业务运营部门、供应链部门 等

要么按照业务系统来划分,一个业务系统抽象出一个主题域,比如搬家系统、erp系统 等

数仓主题:是在较高层次上将企业生产上的各个系统中某一分析对象的数据进行整合、归类并分析的一种范围,属于一个抽象概念,简单点说每一个主题对应一个宏观分析领域。

划分方法:说白了主要就是要识别出分析对象主体,做主题划分和主题域划分,个人建议是要站在全局的视角来看,然后先划分出主题域,再接着在主题域里面划分出各个主题,主题域的划分一般比较谨慎,一旦定下来了避免频繁变动,虽然数仓建设是迭代建设的,不能保证一次性初始化好,但我们的主题域划分和主题划分要尽可能地涵盖企业的所有业务,以及在新业务进来时能够无影响地被包含进来和可扩展主题域。

我就分享我负责过的搬家业务数仓建设中,我是如何划分主题域和划分主题的,规模相当于数据集市,即小型的数据仓库

划分主题域:

划分主题:

健壮性评估:

分享网上搜索到的 马蜂窝数仓主题、主题域划分案例

以马蜂窝订单交易模型的建设为例,基于业务生产总线的设计是常见的模式,首先调研订单交易的完整过程,定位过程中的关键节点,确认各节点上发生的核心事实信息。

docx image

docx image

总是听到数据域,那么数据域和主题域是有什么关系呢,参考《阿里巴巴大数据之路》书籍和网上有人总结过这么一段,如下:

主题域

数据域

业务过程

其实数据域跟主题域的差别不大,很大情况下两者就等同于一个概念的。

docx image

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容