数据仓库,简称为DW(Data Warehouse的缩写),是一个很大的数据存储集合,通过对多样的业务数据进行筛选与整合,产出企业的分析性报告和各类报表,为企业的决策提供支持。

数据库大家都知道,是按照是按照数据结构来组织、存储和管理数据的仓库,常用的数据库有Mysql、Oracle、Mongodb等

但我们实际的项目中往往有不同的数据来源,并不只来源于数据库,有些数据储存在Mysql里,有些是用户的操作日志数据,甚至还有一些第三方的数据,有的时候需要把这些数据整合在一起进行数据分析,数据仓库就在这样的情况下应运而生。

数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。


数据仓库特点:

1、主题性

不同于传统的数据库是应用于某个项目,数据仓库则是围绕一个主题进行获取数据和分析数据,以此来满足数据分析的需求。

比如p2p平台一个月内发生了多少交易额,分析那个时间段内现金的流入和流出最高,

2、集成性

我们上面说了,数据仓库的数据来源有数据库的数据、操作日志的数据、运营后台导入的数据、一些第三方接口的数据,原始数据来源不同,存储方式也各不相同,如果要整合成最终的数据集合,需要对数据进行抽取、清洗、转换的过程。

3、稳定性

数据仓库不允许对数据进行修改,只能进行查询和分析。

4、及时性

数据仓库一定要获取最新的数据,这样数据分析出来的结果才是有效的。

数据仓库如何集成不同的数据源?

上面说了数据仓库要将不同的数据源集合起来,那如何集合呢?这里就要介绍ETL的概念,ETL的是 Extract-Transform-Load 的缩写,主要描了数据从来源迁移到目标的几个过程:

1、Extract(抽取)

首先是读取数据源。

2、Transform(转换)

把数据转换成需要的纬度和格式,同时包含数据清洗,清洗掉一些噪音数据。

3、Load(加载)

把数据加载到目标仓库以供分析使用。

现在国内最常用的是一款基于Hadoop的开源数据仓库,名叫【Hive】,可以对存储在HDFS上的文件数据集进行查询和分析处理。

产品经理在实际工作中不能自认为把功能做完了就完了,需要对后续的数据表现进行跟踪分析,知道数据仓库以后,在和工程师的沟通中可以更精准的描述自己的需求,今天这篇数据仓库分享给大家,希望能帮助到不懂技术的小伙伴们。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。