3维度匹配表怎么制作
三个维度的表格做法如下。
在Excel表中做好三个指标的数据,然后用全选数据表格。选择PPT中 “插入”选项卡中的图,选择插入“组合”图表。选择“同比增长”曲线,然后右键设置数据系列格式,再选择“次坐标”即可将曲线调至次坐标。
我们再通过调整图表样式,展示图表明细数据。选中“图表”,点击选项卡设计中,快速布局中的“布局5即可。
维度设计基础,基本概念,维度属性指的就是维度的列。一般是我们在数据分析时用到的过滤条件、分组、排序等,所以维度属性越丰富,可以观察的角度就越多。
如果从SQL查询的角度上看,维度属性通常是放在where和groupby、sortby后的列。数据钻取分为上钻(维度减少)和下钻维度增多。简单来说就是想点开年份看详细的月份或者天数据,就叫下钻;如果由每天的维度变为看季度、年维度,那就是上钻。
1. 星型模式
星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星形模式的维度建模由一个事实表和一组维表成,且具有以下特点:a. 维表只和事实表关联,维表之间没有关联;b. 每个维表主键为单列,且该主键放置在事实表中,作为两边连接的外键;c. 以事实表为核心,维表围绕核心呈星形分布;
星座模型
可以关联本维度表是用于分析哪个业务分类、哪个数据域,便于后续直接查看具体某一数据域或数据集市下,有哪些维度表。
可以指定维度表后续在数据建模分析使用时,维度表的数据存储于数仓中的哪个数据分层,一般情况下维度表可存储于公共维度层(DIM层)。
维度表创建后,您可以将维度的属性添加为维度表的字段,并对维度表进行关联和分区的设置,使用统一的数据标准来进行字段设置,保障全数据域中的维度数据的属性是一致的。
维度表配置完成后:
可物化至存储引擎,后续在计算引擎中使用维度表进行数据分析。
在进行数据派生指标和汇总表的设计创建时,可直接关联使用维度表中的维度。
创建维度表
进入维度建模。
登录DataWorks控制台。
在左侧导航栏,单击工作空间列表。
选择工作空间所在地域后,单击相应工作空间后的数据开发。
单击左上方的图标图标,选择全部产品 >数据建模 >维度建模,进入维度建模页面。
创建维度表。
在维度建模页面,鼠标悬停至加号图标,单击逻辑模型 >创建维度表。
配置维度表的基本信息。
您可根据需求,选择维度表所挂载的层级、数据域、业务分类、数据集市等信息,选择后,后续可进入相应对象的列表查看所创建的维度表。创建维度表主要参数说明如下。
参数项 描述
存储策略 维度表基于什么策略(即存储数据的时间周期及数据量范围)存储数据。
维度 维度表关联的维度,用于配置维度表分析数据的视角。
说明 创建维度,详情请参见创建维度。
表名规则 通过已配置的检查器规范维度表的命名规则。选择检查器后,该维度表的表名需按照检查器定义的规则配置。
说明 配置检查器,详情请参见配置及使用数仓分层检查器。
生命周期 维度表保留的时间周期。最大可保留36000天。
表类型 根据实际情况,选择如下类型。
普通维度表:普通的维度表,无其他需求可选择该类型。
枚举维度表:可进行枚举的维度表,例如性别维度表。
层级维度表:存在字段需要设置层级关系,支持指标做上卷和下钻使用。例如国家、省份、市县等。
配置完成后,单击保存,维度表创建成功。
在维度建模左侧目录树相应的数据域或业务分类下,可查找并统一管理维度表。
开始维度建模工作前,需要理解业务需求,以及作为基础的源数据的实际情况。通过与业务代表交流来发现需求,用于理解他们的基于关键性能指标、竞争性商业问题、决策制定过程、支持分析需求的目标。数据实际情况可以通过和源数据的开发交流,构建高层次数据分析访问数据的可行性来揭示。
二、协作维度建模研讨
维度模型应该通过与业务代表开展一些列高级别交互讨论和作品设计而成。
三、4步骤维度设计过程
1、选择业务过程
业务过程是组织完成的操作型活动。业务过程事件建立或获取性能度量,并转换为事实表中的事实。多数事实表关注某一业务过程的结果。过程的选择是非常重要的,因为过程定义了特定的设计目标以及对粒度,维度,事实的定义。每个业务过程对应企业数据仓库总线矩阵的一行。
2、声明粒度
声明粒度是维度设计的重要步骤。在选择维度或事实前必须声明粒度,因为每个候选维度或事实必须与定义的粒度保持一致。在所有维度设计中强制实行一致性是保证BI应用性能和易用性的关键。在从给定的业务过程中获取数据时,原子粒度时最低级别的粒度。最好从原子级别粒度开始设计,因为原子粒度能够承受无法预期的用户查询。针对不同的事实表粒度,要建立不同的物理表,在同一事实表中不要混用多种不同的粒度。
3、确认环境的维度
维度围绕某一业务过程事件所涉及的谁、什么、何处、何时、为什么、如何等背景。维度表包含BI应用所需要的用于过滤及分类事实的描述性属性。牢牢掌握事实表的粒度,就能够将所有可能存在的维度区分开。当与给定的事实表关联时,任何情况都能保证维度表唯一值。
4、确认用于度量的事实
事实设计来自业务过程事件的度量,基本上都是以数量值表示。一个事实表行与按照事实表粒度描述的度量事件之间存在一对一关系,因此事实表对应一个物理可观察的事件。在事实表内,所有事实只允许与生命的粒度保持一致。
2)应用之间数据差异集中表现在:
3)面对应用数据的差异,除了统一命名规范、统一字段等公共处理外,还需要进行业务分析,将 业务关系大、对源系统影响差异小 的表进行整合;将 业务关系小、对源系统影响差异大 的表进行拆分。
整合的方式主要采用主从表设计:将多个表中的公共字段放在主表中,从属信息分别放在从表中。主表的主键使用 源主键和表标志 作为复合主键。以上是对于维度的整合,而具体到表整合分为:
在整合数据时遇到以下场景进行维度拆分才是明智之举:
1)水平拆分:
2)垂直拆分:
考虑到某些维度属性的来源表产出时间早,某些产出晚;某些属性位数使用频率高,某些频率低;某些属性稳定性高,某些经常变化。把产出 时间早、使用频率高、稳定性高 的属性放在主维度中,把产出 时间晚、使用频率低、经常变化 的属性放在子维度中
1 )全量快照表
离线数据仓库的计算周期通常为每天一次,所以可以每天保存一份全量的维度数据。这种方式的优点和缺点都很明显
优点是简单而有效,开发和维护成本低,且方便理解和使用。
缺点是浪费存储空间,尤其是当数据的变化比例比较低时。
2 )拉链表
拉链表的意义就在于能够更加高效的保存维度信息的历史状态。
拉链表是记录每条信息的生命周期,一旦一条记录的生命周期结束,就重新开始一条新的记录,并把当期日期放入生效开始日期,如果当前信息至今有效,再生效结束日期种填入一个极大值
(1)什么是拉链表
拉链表适合于:数据发生变化,但是变化频率并不高的维度(即:缓慢变化维)
比如:用户信息会发生变化,但是每天变化的比例不高。如果数据量有一定规模,按照每日全量的方式保存效率很低。比如:1亿用户*365天,每天一份用户信息(做每日全量效率低)
通过,生效开始日期<=某个日期且生效结束日期>=某个日期
如果事实表中一条记录在某个维度表中有多条记录与之对应,称为多值维度。例如,下单事实表中的一条记录为一个订单,一个订单可能包含多个商品,所会商品维度表中就可能有多条数据与之对应。
针对这种情况,通常采用以下两种方案解决。
第一种:降低事实表的粒度,例如将订单事实表的粒度由一个订单降低为一个订单中的一个商品项。
第二种:在事实表中采用多字段保存多个维度值,每个字段保存一个维度id。这种方案只适用于多值维度个数固定的情况。
建议尽量采用第一种方案解决多值维度问题
维表中的某个属性同时有多个值,称之为“多值属性”,例如商品维度的平台属性和销售属性,每个商品均有多个属性值。
针对这种情况,通常有可以采用以下两种方案。
第一种:将多值属性放到一个字段,该字段内容为key1:value1,key2:value2的形式,例如一个手机商品的平台属性值为“品牌:华为,系统:鸿蒙,CPU:麒麟990”。
第二种:将多值属性放到多个字段,每个字段对应一个属性。这种方案只适用于多值属性个数固定的情况