当前位置:东北信息网 -> 商业

数据仓库知识与实战——电信运营商数仓建模

时间:2018-07-13 13:47:25

  作者:网舟科技—王超

  什么是数据仓库

  数据仓库是为企业提供聚合,存储,投递,以及提供决策支持能提,数据仓库包含广泛数据并按照主题进行存储并且是在数据仓库流程过程中的一个部分。Willianm(Bill) H. Inmon提出过一个概念:”一个面向主题的,集成的,时间序列变化的以及不易更改的数据的集合为管理者们的决策过程提供支持”。

  总体架构上,数据仓库设计人,过程和技术去实现提供一致性,集成化,标准化以及易于理解的决策支持数据的目标。

  数据仓库是什么,不是什么

  一个数据仓库是一个数据的仓库,数据仓库里的数据是其他数据介质可操作数据的副本,这些数据通常是从多个数据源获取的,并且是对决策支持有用的,而不是最原始的数据。

  “数据仓库”,并不是数据库的别称,数据仓库的数据也并不只是由历史数据所构成,数据仓库里的数据也包含分析数据和报告数据,也可以交易数据,(些数据是有应用系统所管理的数据,并不存在于数据仓库之中)。

  数据仓库架构组件

  数据仓库的技术架构包括:数据源,ETL,和数据访问接口。

  

  数据仓库技术栈列表:

  平台组件名称描述

  数据分析工具ETL工具还有实时数据整合工具,比如ESB系统。这些工具操作数据从一个地方到另一个地方,同时也进行清洗和过滤数据。

  RDBMS(关系型数据库管理系统)RDBMS是以关系形式去存储数据,并且使用SQL,关系型数据库系统也有维持强壮的数据关系并且存储数据。

  MOLAP(多维度OLAP)为数据集市形式操作而设计.MOLAP进行组织数据为多维度形式--数据立方体去支持分析。

  大数据存储大数据存储管理者大量的数据,包含关系型数据库数据和其他系统的数据等等

  报表和查询工具BI工具,通过查询并提供这些数据作为报表展示,业务人员或者分析人员可以浏览这些数据进行数据挖掘,BI工具同时也可以导出并且制作报告,让其他需要的人员去理解数据。

  数据挖掘工具这类工具专门用作数据挖掘和数据分析

  元数据元数据是用于描述数据的数据,主要有两类:1.业务元数据,2.技术元数据

  仓库这类工具提供了以图形化的方式去设计数据和数据库,例如设计表,列,规则以及业务定义等等。

  数据建模工具数据建模工具通过探索和比较的形式来支持理解数据,他们帮助分析人人更好的理解数据的内容和质量。

  基础架构的基础设施

  数据仓库技术栈是构建在硬件和软件框架之上的。

  

  使用数据仓库应用或者专用的数据库基础设施来帮助我们构建数据仓库,这些技术上旨在提供高性能。这些数据仓库应用以最优的形式提供数据库服务,使用MMP架构,它们包括具有一些特有功能的紧密耦合的计算机,以及可访问的存储设备进行并行执行,专有的功能包含:系统控制,数据库访问,数据加载,数据备份。

  数据仓库应用有超高的性能,他们有着比传统数据库高100倍的性能。

  数据架构

  数据架构是企业数据管理的蓝图,并且有一些概念,这些概念是:数据治理,数据质量,ILM,数据框架,元数据和含义,主要数据,最后是商业智能.

  

  概念描述

  数据治理将数据看作为资产,数据全面管理包括人员,技术和过程,可以提高从数据和信息中获取的价值,它是数据架构的基石

  数据质量管理确保数据适合企业使用的规范。它包括获取要求和规则,这些要求和规则规定了所需质量的维度,如准确性、完整性、及时性和允许的值。

  信息生命周期管理从一个信息系统数据及其相关元数据产生和初始储存阶段到最后过时被删除时的一套综合管理方法。与早期的数据储存管理方法不同,信息生命周期管理技术根据用户的操作从全方位对数据进行管理,而不仅仅是让数据储存流程自动化。

  数据框架数据相关系统的描述,包括一组基本部件和使用模式组装这些部件的推荐方法。数据框架可以包括:数据库管理、数据存储和数据集成。

  元数据和定义描述和指定数据相关对象的信息。这个描述可以包括:数据的结构和存储,数据的业务使用,以及处理数据的过程。“定义”是指数据的含义。

  主数据管理专注于生产和提供主数据和基本业务实体(如客户、产品和财务帐户)的“黄金记录”的活动。主数据是描述多个应用程序共享的主要主题的数据。

  商业智能支持组织的战略和操作的计划和决策的人员、工具和过程。

  数据流

  该图显示了数据如何在数据仓库系统中流动。数据首先来自数据源,例如库存系统(存储在数据仓库和操作数据存储中的系统)。数据存储被格式化以公开数据市场中的数据,然后使用BI和分析工具访问这些数据市场。

  

  数据

  数据是我们获得理解的原材料。它是数据建模、统计和数据挖掘中的关键元素。它是金字塔的基础。

  数据的特征:

  特征描述

  名称每个属性都有一个名称,比如“帐户余额”。一个属性name是标识和描述属性的字符串。在数据设计的早期阶段,您可以只列出名称,而不添加被称为元数据的明确信息。

  数据类型数据类型,也称为“数据格式”,可以有一个值,比如小数(12.4)。这是用于存储属性的格式。它指定信息是字符串、数字还是日期。此外,它还指定属性的大小。

  域域(如货币数量)是按功能对属性进行分类的。

  初始值初始值(比如0.0000)是在第一次创建属性时指定的默认值。

  规则规则是限制属性可以包含的值的约束。一个示例规则是,“属性必须大于或等于0.0000。”使用规则有助于提高数据质量。

  定义一种表达或描述属性含义的叙述。例如,帐户结余金额是对金融帐户(如银行帐户或投资帐户)货币价值的度量。

  数据监控

  三个层次的数据建模是按顺序来的:

  概念数据模型——使用实体、属性和关系描述问题的高级模型。

  逻辑数据模型——用业务术语描述解决方案的详细数据模型,它还使用实体、属性和关系。

  物理数据模型——定义数据库对象(如表和列)的详细数据模型。需要这个模型来实现数据库中的模型并生成一个有效的解决方案。

  实体

  实体是任何实体的核心部分概念和逻辑数据模型。实体是企业感兴趣的对象可以是一个人,组织、地点,活动,事件,抽象,或者想法。实体在数据模型中表示为矩形。把实体看作单数名词。

  

  属性

  属性是一个实体的特征。属性被归类为主键、外键、备用键和非键,如图所示。

  

  关系

  关系是实体之间的联系。通过在相关实体之间划一条线来描绘这种关系。下图描述了两个实体——客户和订单——它们之间的关系。

  

  基数

  基数指定可能参与给定关系的实体的数量,表示为一对一、一对多或多对多,如下例所示:

  

  基数被表示为最小和最大值。在下面的第一个例子中,一个实例的实体的可能有一个实例实体B,B和实体必须有一个且只有一个实例的指定实体A .基数将符号的关系线附近的两个实体的关系。

  在第二种情况下,实体A可能有一个或多个实体B的实例,而实体B必须有一个且只有一个实体A的实例。

  

  规范化数据

  规范化是一种组织的数据建模技术。将数据分解到最低水平,即,以避免重复。该方法用于设计数据仓库系统的原子数据仓库部分。以下是埃德加·f·科德(Edgar F. Codd)的前三个规范化级别。还有其他标准化级别,您可以在这里了解更多。当关系数据库达到第三个范式时,它被认为是规范化的。

  原子数据仓库

  原子数据仓库(ADW)是一个将数据分解为低级组件以准备输出到数据集市的区域。ADW的设计采用了标准化和快速载入和记录历史的方法。

  ADW被组织成具有逻辑键和支持跟踪更改和快速加载/插入的可变数据的不变数据。使用一个整数作为主代理键。然后添加有效日期来跟踪更改。

  

  关联实体

  使用具有有效日期和过期日期的关联实体跟踪实体之间的关系历史。

  

  原子DW特有属性

  使用专门的属性来提高ADW的效率和有效性。使用ADW_前缀标识这些属性。

  属性名称描述

  dw_xxx_iddw_xxx_id数据仓库分配代理键。将“xxx”替换为对表名的引用,例如“dw_ customer_dim_id”。

  dw_insert_date将一行插入数据仓库的日期和时间。

  dw_effective_date数据仓库中的一行开始活动的日期和时间。

  dw_expire_date数据仓库中的一行停止活动的日期和时间。

  dw_data_process_ log_id对数据处理日志的引用。日志是数据仓库中数据加载或修改过程的记录。

  多维数据库

  维度数据库是为查询和分析优化的数据库,不像原子数据仓库那样进行规范化。它由事实和维度表组成,其中每个事实都连接到一个或多个维度。

  销售订单事实表:

  日历日期、产品、客户、地理位置和销售组织的维度将销售订单事实放入上下文中。这个星型模式支持以立方体的方式查看订单,支持根据客户、时间和产品进行切片和切割。

  

  事实

  事实是数据仓库中的信息单元,也是多维空间中的一个单元,受分析单元的限制。事实存储于一张表中(当使用关系数据库时)或者是多维数据库中的一个单元。每个事实包括关于事实(销售额,销售量,成本,毛利,毛利率等)的基本信息,并且与维度相关。在某些情况下,当所有的必要信息都存储于维度中时,单纯的事实出现就是对于数据仓库足够的信息。

  一个事实所包含的内容有表名,主键,和度量。

  

  事件事实例子:

  事件事实记录单个事件,如金融交易、销售、投诉或发货。

  

  快照事实:

  快照事实捕获项目在某个时间点的状态,例如总账余额或库存水平。

  

  累积快照的事实:

  累积快照事实将累积的数据(如今年迄今的数据量)添加到快照事实中。

  

  聚合的事实:

  汇总事实提供汇总信息,比如一段时间内的总账,或者每个商店每月的每个产品的投诉。

  

  更多的事实:

  无事实的事实跟踪维度之间的联系,而不是数量度量。例如里程,活动出席和促销活动。

  

  维度

  维度是一个数据库表,其中包含识别和分类的属性。这些属性作为报告的标签和汇总的数据点。在维度模型中,维度围绕并限定事实。

  日期和时间维度:

  日期维度支持趋势分析,包括日期及其相关的周、月、季和年。时间维度用于分析每日业务量。

  

  多维角色:

  一个维度可以扮演多个角色。日期维度可以扮演快照日期、项目开始日期和项目结束日期的角色。

  

  退化维度:

  退化维度有一个维度键,没有维度表。示例包括交易号、发货号和订单号。

  

  数据集成

  数据集成是一种移动数据或在数据存储之间提供数据的技术。数据集成过程可以包括提取、移动、验证、清理、转换、标准化和加载。

  ETL:

  在数据集成的ETL模式中,数据从数据源中提取,然后在传输到staging数据库时进行转换。然后将数据加载到数据仓库中。ETL非常适合批量数据的批处理。

  

  ELT:

  在数据集成的ELT模式中,数据从数据源中提取,并在不进行转换的情况下加载到staging中。在此之后,数据将在staging中进行转换,然后加载到数据仓库中。

  

  这种类型的集成以及使用视图/查询作为转换部分将帮助数据更快地为最终用户所用。

  CDC:

  数据集成的CDC模式在事件处理中非常强大。包含数据库更改记录的数据库日志将在登台时实时复制。然后将这些信息转换并加载到数据仓库

  

  CDC是支持实时数据仓库的一项重要技术。

  实际案例

  中国电信电子渠道深度运营--数据仓库篇

  为运营商提供专业、高水平的流量经营服务,包括客户洞察细分研究、流量业务常态营销支撑、运营监控分析、客户挖掘建模、培训等一系列服务,网舟科技以客户需求为牵引,帮助运营商提升流量业务精细化运营能力和互联营销能力。

  网舟科技提供基于精准用户行为分析的舆情监控(行业洞察)、竞争对手分析、精准营销等服务,为企业进行营销决策提供数据支撑。

  维度:

  页面地址,访问时间戳,屏幕分辨率,来源类型,来源类型,关键字搜索,搜索引擎,城市代码,产品信息,浏览器,操作系统,新老访客,页面名称。

  通过对运营商业务的深入分析我们根据几个主题进行维度的建模,例如时间序列,产品相关维度,用户基本行为维度,以及广告推广和外链等几大维度进行对业务的深入分析。

  量度:

  浏览量,访客,访问量,跳出率,退出率,平均逗留时长,实际订单,转化率,点进次数,搜索次数,搜索退出率,搜索点击结果率,搜索无结果率,搜索无结果次数

  我们将用户所关心的主题将主题包含的维度和量度进行构建数据立方体,用户和业务分析人员可以通过不同层面进行数据挖掘和探索来提高获取数据信息中所体现的数据价值。

  数据报告:

  

  

    免责声明:本文仅代表作者或其来源网站个人观点,不代表本网站的观点和立场,与本网站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如因作品内容侵权需删除与其他问题需要同本网联系的,请在30日内通过本网的邮箱或电话联系。
来源:   作者:   编辑: 王金雷
  • 商贸
  • 独家
  • 娱乐
  • 体育
  • 健康
  • 文化
道外区黎华街道组织参观船舶博
道外区黎华街道组织参观船舶博

延寿县长寿山五一登山热:青山揽客 踏春而行

低息企业贷款,轻松缓解资金压力
低息企业贷款,轻松缓解资金压力

猎芯网携手星坤连接原厂亮相慕尼黑上海电子展!

好莱客案例|90㎡三居打造出工作间、�
好莱客案例|90㎡三居打造出工作间、�

传统音乐正成为电影叙事的点睛之笔

辽宁队第4个离队之人出炉!CBA总决赛
辽宁队第4个离队之人出炉!CBA总决赛

青训筑基+赛事赋能 大连打造国际知名足球城

平房区人民检察院举办检企共建庆“七
平房区人民检察院举办检企共建庆“七

延寿县丨安山乡开展主题党日活动

香坊区启动2025年全民义务植树活动
香坊区启动2025年全民义务植树活动

香坊区启动2025年全民义务植树活动