首页数据库宽表数据库(如何数据库管理的行为规范)

宽表数据库(如何数据库管理的行为规范)

编程之家2023-10-1886次浏览

大家好,感谢邀请,今天来为大家分享一下宽表数据库的问题,以及和如何数据库管理的行为规范的一些困惑,大家要是还不太明白的话,也没有关系,因为接下来将为大家分享,希望可以帮助到大家,解决大家的问题,下面就开始吧!

宽表数据库(如何数据库管理的行为规范)

为什么要给数据库分层

(1)为什么要分层

作为一名数据的规划者,我们肯定希望自己的数据能够有秩序地流转,数据的整个生命周期能够清晰明确被设计者和使用者感知到。直观来讲就是如图这般层次清晰、依赖关系直观。

但是,大多数情况下,我们完成的数据体系却是依赖复杂、层级混乱的。如下图,在不知不觉的情况下,我们可能会做出一套表依赖结构混乱,甚至出现循环依赖的数据体系。

宽表数据库(如何数据库管理的行为规范)

因此,我们需要一套行之有效的数据组织和管理方法来让我们的数据体系更有序,这就是谈到的数据分层。数据分层并不能解决所有的数据问题,但是,数据分层却可以给我们带来如下的好处:

1)清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解;

2)减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算;

宽表数据库(如何数据库管理的行为规范)

3)统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径;

4)复杂问题简单化:将一个复杂的任务分解成多个步骤来完成,每一层解决特定的问题。

为了满足前面提到好处,通常将数据模型分为三层:数据运营层( ODS)、数据仓库层(DW)和数据应用层(APP)。简单来讲,我们可以理解为:ODS层存放的是接入的原始数据,DW层是存放我们要重点设计的数据仓库中间层数据,APP是面向业务定制的应用数据。下面详细介绍这三层的设计。

(2)数据模型的分层

1)源数据层(ODS)

此层数据无任何更改,直接沿用外围系统数据结构和数据,不对外开放;为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。

2)数据仓库层(DW)

也称为细节层,DW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。

此层可以细分为三层:

明细层DWD(Data Warehouse Detail):存储明细数据,此数据是最细粒度的事实数据。该层一般保持和ODS层一样的数据粒度,并且提供一定的数据质量保证。同时,为了提高数据明细层的易用性,该层会采用一些维度退化手法,将维度退化至事实表中,减少事实表和维表的关联。

中间层DWM(Data WareHouse Middle):存储中间数据,为数据统计需要创建的中间表数据,此数据一般是对多个维度的聚合数据,此层数据通常来源于DWD层的数据。

业务层DWS(Data WareHouse Service):存储宽表数据,此层数据是针对某个业务领域的聚合数据,业务层的数据通常来源与此层,为什么叫宽表,主要是为了业务层的需要在这一层将业务相关的所有数据统一汇集起来进行存储,方便业务层获取。此层数据通常来源与DWD和DWM层的数据。

在实际计算中,如果直接从DWD或者ODS计算出宽表的统计指标,会存在计算量太大并且维度太少的问题,因此一般的做法是,在DWM层先计算出多个小的中间表,然后再拼接成一张DWS的宽表。由于宽和窄的界限不易界定,也可以去掉DWM这一层,只留DWS层,将所有的数据在放在DWS亦可。

3)数据应用层(DA或 APP)

前端应用直接读取的数据源;根据报表、专题分析的需求而计算生成的数据。

4)维表层(Dimension)

最后补充一个维表层,维表层主要包含两部分数据:

A)高基数维度数据:一般是用户资料表、商品资料表类似的资料表。数据量可能是千万级或者上亿级别。

B)低基数维度数据:一般是配置表,比如枚举值对应的中文含义,或者日期维表。数据量可能是个位数或者几千几万。

(3)问题扩展

数据仓库系统架构

上图系统各部分的执行流程是:

1)确定分析所依赖的源数据。

2)通过ETL将源数据采集到数据仓库。

3)数据按照数据仓库提供的主题结构进行存储。

4)根据各部门的业务分析要求创建数据集市(数据仓库的子集)。

5)决策分析、报表等应用系统从数据仓库查询数据、分析数据。

6)用户通过应用系统查询分析结果、报表。

(4)结合项目中使用

电商网站的数据体系设计,这里针对用户访问日志这一部分数据进行举例说明:

在ODS层中,由于各端的开发团队不同或者各种其它问题,用户的访问日志被分成了好几张表上报到了我们的ODS层。

为了方便大家的使用,我们在DWD层做了一张用户访问行为天表,在这里,我们将PC网页、H5、小程序和原生APP访问日志汇聚到一张表里面,统一字段名,提升数据质量,这样就有了一张可供大家方便使用的明细表了。

在DWM层,我们会从DWD层中选取业务关注的核心维度来做聚合操作,比如只保留人、商品、设备和页面区域维度。类似的,我们这样做很多个DWM的中间表。

然后在DWS层,我们将一个人在整个网站中的行为数据放到一张表中,这就是我们的宽表了,有了这张表,就可以快速满足大部分的通用型业务需求了。

最后,在APP应用层,根据需求从DWS层的一张或者多张表取出数据拼接成一张应用表即可。

数据仓库的功能包括

数据仓库的功能包括:ETL设计,包括数据的抽取同步、数据清洗、数据转换;数据分层,一般会划分为ODS层、CM层、ML层;数据初步建模。

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库是一个面向主题的(Subject Oriented)、集成的、相对稳定的、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

数据仓库的基本功能

ETL设计:数据的抽取同步、数据清洗、数据转换。涉及关系型数据库(mysql、mariadb、oracle等),文档型数据库(mongodb、elasticsearch等)。

数据分层:一般划分为ODS层、CM层、ML层。ODS层表示未进行加工的数据。CM层表示清洗合并层的数据。

数据初步建模:对应数据分层ML层,一般采用关系模型(雪花模型)或星型模型,形成宽表对外提供数据支持。

涉及技术:HDFS、HIVE、HBASE、MR、SPARK、YARN等。

如何数据库管理的行为规范

通常情况下,有两个方面的标准来判断数据库是否设计的比较规范:一是看看是否拥有大量的窄表,二是宽表的数量是否足够的少。若符合这两个基本条件,则说明这个数据库的规范化水平还是比较高的。

当然这两个指标只是最基础的判定条件。为了让数据库更加的规范,需要符合以下五点要求。

要求一:表中应该避免可为空的列。

虽然表中允许空列,但是,空字段是一种比较特殊的数据类型。数据库处理时需要进行特殊的处理。如此的话,就会增加数据库处理记录的复杂性。当表中有比较多的空字段时,在同等条件下,数据库处理的性能会降低许多。

所以,虽然在数据库表设计的时候,允许表中具有空字段,但是,我们应该尽量避免。若确实需要的话,我们可以通过一些折中的方式,来处理这些空字段,让其对数据库性能的影响降低到最少。

一是通过设置默认值的形式,来避免空字段的产生。如在一个人事管理系统中,有时候身份证号码字段可能允许为空。因为不是每个人都可以记住自己的身份证号码。为此,身份证号码字段可以允许为空,以满足这些特殊情况的需要。但是,在数据库设计的时候,则可以做一些处理。如当用户没有输入内容的时候,则把这个字段的默认值设置为0或者为N/A。以避免空字段的产生。

二是若一张表中,允许为空的列比较多,接近表全部列数的三分之一。而且,这些列在大部分情况下,都是可有可无的。若数据库管理员遇到这种情况,笔者建议另外建立一张副表,以保存这些列。然后通过关键字把主表跟这张副表关联起来。将数据存储在两个独立的表中使得主表的设计更为简单,同时也能够满足存储空值信息的需要。

要求二:表不应该有重复的值或者列。

如现在有一个进销存管理系统,这个系统中有一张产品基本信息表中。这个产品开发有时候可以是一个人完成,而有时候又需要多个人合作才能够完成。所以,在产品基本信息表产品开发者这个字段中,有时候可能需要填入多个开发者的名字。

关于宽表数据库,如何数据库管理的行为规范的介绍到此结束,希望对大家有所帮助。

域名证书生成,https域名证书怎么申请gp 数据库?gp数据库全称是什么