维度数据建模过程及举例说明（维度数据建模过程及举例）

玩机堂 • 2022年12月17日上午10:39 • 前沿

1. 摘要

本文介绍数据仓库中维度数据建模的过程描述，并举一个示例以加深对相关概念的理解。

2. 内容

2.1 维度模型定义

维度模型是数据仓库领域大师Ralph Kimall所倡导，他的《数据仓库工具箱》，是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型，构建的数据模型为分析需求服务，因此它重点解决用户如何更快速完成分析需求，同时还有较好的大规模复杂查询的响应性能。

2.2 维度建模过程

第一步：选择业务过程

1、通过对业务需求以及可用数据源的综合考虑，确定对哪种业务过程开展建模工作

2、建立的第一个维度模型应该是一个最有影响的模型——它应该对最紧迫的业务问题作出回答，并且对数据的抽取来说是最容易的。

第二步：定义粒度

注：粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别，细化程度越高，粒度就越小

1、应该先优先考虑为业务处理获取最有原子性的信息而开发维度模型。原子型数据是所收集的最详细的信息，这样的数据不能再做更进一步的细分。

2、数据仓库几乎总是要求在每个维度可能得到的最低粒度上对数据进行表示的原因，并不是因为查询想看到每个低层次的行，而是因为查询希望以很精确的方式对细节知识进行抽取。

第三步：选定维度

一个经过仔细考虑的粒度定义确定了事实表的基本维度特性。同时，经常也可能向事实表的基本粒度加入更多的维度，而这些附加的维度会在基本维度的每个组合值方面自然地取得唯一的值。如果附加的维度因为导致生成另外的事实行而违背了这个基本的粒度定义，那么必须对粒度定义进行修改以适应这个维度的情景。

第四步：确定事实

确定将哪些事实放到事实表中。粒度声明有助于稳定相关的考虑。事实必须与粒度吻合。在考虑可能存在的事实时，可能会发现仍然需要调整早期的粒度声明和维度选择

2.3 维度建模的基本要素

维度建模中有一些比较重要的概念，理解了这些概念，基本也就理解了什么是维度建模。

1. 事实表

发生在现实世界中的操作型事件，其所产生的可度量数值，存储在事实表中。从最低的粒度级别来看，事实表行对应一个度量事件，反之亦然。

额，看了这一句，其实是不太容易理解到底什么是事实表的。

比如一次购买行为我们就可以理解为是一个事实，下面我们上示例。

图中的订单表就是一个事实表，你可以理解他就是在现实中发生的一次操作型事件，我们每完成一个订单，就会在订单中增加一条记录。

我们可以回过头再看一下事实表的特征，在维度表里没有存放实际的内容，他是一堆主键的集合，这些ID分别能对应到维度表中的一条记录。

2. 维度表

每个维度表都包含单一的主键列。维度表的主键可以作为与之关联的任何事实表的外键，当然，维度表行的描述环境应与事实表行完全对应。维度表通常比较宽，是扁平型非规范表，包含大量的低粒度的文本属性。

我们的图中的用户表、商家表、时间表这些都属于维度表，这些表都有一个唯一的主键，然后在表中存放了详细的数据信息。

2.4 维度建模过程举例

下面我们将以电商为例，详细讲一下维度建模的建模方式，并举例如果使用这个模型（这点还是很重要的）。

一、业务场景

假设我们在一家电商网站工作，比如某宝、某东。我们需要对这里业务进行建模。下面我们分析几点业务场景：

电商网站中最典型的场景就是用户的购买行为。
一次购买行为的发起需要有这几个个体的参与：购买者、商家、商品、购买时间、订单金额。
一个用户可以发起很多次购买的动作。

好，基于这几点，我们来设计我们的模型。

二、模型设计

下面就是我们设计出来的数据模型，和之前的基本一样，只不过是换成了英文，主要是为了后面写sql的时候来用。

我就不再解释每个表的作用了，现在只说一下为什么要这样设计。

首先，我们想一下，如果我们不这样设计的话，我们一般会怎么做？

如果是我，我会设计下面这张表。你信不信，我能列出来50个字段！其实我个人认为怎么设计这种表都有其合理性，我们不论对错，单说一下两者的优缺点。

先说我们的维度模型：

数据冗余小（因为很多具体的信息都存在相应的维度表中了，比如用户信息就只有一份）
结构清晰（表结构一目了然）
便于做OLAP分析（数据分析用起来会很开心）
增加使用成本，比如查询时要关联多张表
数据不一致，比如用户发起购买行为的时候的数据，和我们维度表里面存放的数据不一致

再说我们这张大款表的优缺点：

业务直观，在做业务的时候，这种表特别方便，直接能对到业务中。
使用方便，写sql的时候很方便。
数据冗余巨大，真的很大，在几亿的用户规模下，他的订单行为会很恐怖
粒度僵硬，什么都写死了，这张表的可复用性太低。

三、使用示例

数据模型的建立必须要为更好的应用来服务，下面我先举一个例子，来切实地感受一下来怎么用我们的模型。

需求：求出2016年在帝都的男性用户购买的LV品牌商品的总价格。

实现：

SELECT

SUM(order.money)

FROM

order,

product,

date,

address,

user,

WHERE

date.year = ‘2016’

AND user.sex = ‘male’

AND address.province = ‘帝都’

AND product.name = ‘LV’

四、总结

维度建模是一种十分优秀的建模方式，他有很多的优点，但是我们在实际工作中也很难完全按照它的方式来实现，都会有所取舍，比如说为了业务我们还是会需要一些宽表，有时候还会有很多的数据冗余。

3. 参考

《Hadoop构建数据仓库实践》
漫谈数据仓库之维度建模https://zhuanlan.zhihu.com/p/27426819

玩机堂注册用户

0 0

dw写html（html常用代码大全）

上一篇 2022年12月17日上午10:37

热卖手机排行榜2022（2022年全球前10位畅销手机榜单）

下一篇 2022年12月17日上午10:41

前沿

苗银是纯银吗（苗银,足银和纯银的区别）

足银（S990）虽然理论上100%才是纯银，但含量达到99%的银也叫做纯银“99”在首饰上标注为足银或（S990）。99银很软但是颜色很白，可以二次加工。千足银（S999）含…

玩机堂
2022年12月24日
动车怎么调座椅靠背（高铁上咋调座椅后靠背方法）

乘坐动车后你会调座椅靠背吗？调整好合适的座椅靠背角度可缓解旅途中久坐带来的疲惫还有一些网友在网上分享自己的座椅靠背调整心得座椅的功能其实很多其实很多人都不知道动车组…

玩机堂
2022年12月22日 • 前沿
氦气是什么气体（氦气的化学性质和用途）

我们今天来谈谈氦，这个位于元素周期表第二位的神秘气体。氦的惰性我们都知道氢的原子序数是1，它的原子核里只有一个质子，氢的标准原子量是1.008，氢气的密度是0.08988g/L…

玩机堂
2022年12月17日 • 前沿
前沿

电脑打开软件乱码怎么解决（电脑打开软件乱码解决方法分享）

百忙中电脑打开文档都是乱码，看也看不懂，好多网友说电脑怎么就乱码了，早上还好好，又重新叫别人发来一份，打开还一样，出现乱码不要慌，小编为你解答。第一种，可能区域语言设置不对 1、…

玩机堂
2022年12月18日
h5跳转页面的几种方式（h5跳转）

今年做了大量的 HTML5 项目，遇到了很多坑。在这个过程中学到了一些之前不具备的知识，所以这篇文章就简单分享一下这方面的话题。传统的MPA 首先，说一个比较古老的东西，叫做 M…

玩机堂
2022年12月21日 • 前沿
好用的油猴脚本推荐（好玩的油猴脚本）

鲁迅先生曾说：脚本用得好，老公回家早一个好的脚本可以提高你的网上冲浪体验以下是我自用的脚本推荐，油猴脚本千千万，哪个脚本真正适合自己，还需要自己亲身体验，这篇文章只做参考纯主…

玩机堂
2022年12月18日 • 前沿
excel怎么单元格拆分（excel单元格如何拆分单元格步骤）

相信很多人都会合并单元格，但是要怎么拆分呢。那么excel如何拆分单元格呢? 今天和大家分享五种Excel拆分单元格的方法，一起来看一下吧。一、设置单元格格式 1、打开Excel…

玩机堂
2022年12月18日 • 前沿
什么品牌的烤面包机好（烤面包机哪个牌子好，教你如何选购面包机）

一台面包机可以让你在家轻松地做出美味的面包，各式面点也可做到，那么什么牌子的烤面包机好呢？还有面包机挑选方法应该是怎么做？以下由小编为您一一解答哦。什么牌子的烤面包机好 SKG面…

玩机堂
2022年12月25日 • 前沿
杜比音效是什么意思（杜比音效怎么通俗易懂点理解的）

相信无论是在电影院里，还是在电脑、电视和游戏机等数码产品上，我们都会经常看到下面这个标志：大家可能都知道，这个标志代表的是“杜比音效”。而一般标注有这个标志的影厅和数码产品，都会…

玩机堂
2022年12月16日 • 前沿
前沿

目标客户画像分析（什么是客户画像?怎样构建客户画像?）

有一种客户成功策略是伴随式的，而不是植入式的，即客户导向，而不是产品导向。有了大数据的搜索、分析和匹配能力，不管是B端的企业，还是C端的自媒体或职业中需要面向客户的个人，都希望借…

玩机堂
2022年12月17日
ppt取色器怎么使用（ppt里有取色器吗）

在 Office 2013 及以上版本的 PPT 中，有一个非常厉害的功能「取色器」。它的一个厉害之处就是：可以从其它作品中，快速复制自己想要的颜色！比如：喜欢阿…

玩机堂
2022年12月21日 • 前沿
前沿

CK与小CK的区别（ck和小ck的区别是什么）

说起CK与小CK的区别，我们首先决定先从品牌的历史、主要是销售产品，以及产品定位等多方面进行对比，加以区别。 1、进入中国的时间不一样。小CK（Charles Keith）一九九…

玩机堂
2022年12月23日
空气炸锅测评（空气炸锅测评对比2022）

近年来，空气炸锅已成为追求健康饮食人群中颇受欢迎的小家电。空气炸锅的原理就是用空气替代原本煎锅里的热油，用近似太阳热风的对流加热，以热风在密闭的锅内形成急速循环的热流，让食物变熟…

玩机堂
2022年12月24日 • 前沿
前沿

梧桐山攻略（梧桐山攻略路线图）

爬了这么多次梧桐山，当然要介绍一下，先上导游图. 1:第一次是6月19日去的，导航到仙桐体育公园，沿仙桐南路盘山道走了很长一段，到了一个休息区，那时前面封路了，正好遇…

玩机堂
2022年12月20日
前沿

藏族望果节的来历（藏族的传统节日望果节）

望果节流行于西藏自治区的拉萨，日喀则，山南等地，已有1500多年历史了，是藏族农民欢庆丰收的传统节日，“望”藏语的意思是土地，“果”藏语的意思是转圈，即“望果”是代表绕地头转圈。 …

玩机堂
2022年12月16日

发表回复

登录后才能评论