数据仓库,简称为DW(Data Warehouse的缩写),是一个很大的数据存储集合,通过对多样的业务数据进行筛选与整合,产出企业的分析性报告和各类报表,为企业的决策提供支持。
数据库大家都知道,是按照是按照数据结构来组织、存储和管理数据的仓库,常用的数据库有Mysql、Oracle、Mongodb等
但我们实际的项目中往往有不同的数据来源,并不只来源于数据库,有些数据储存在Mysql里,有些是用户的操作日志数据,甚至还有一些第三方的数据,有的时候需要把这些数据整合在一起进行数据分析,数据仓库就在这样的情况下应运而生。
数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。
数据仓库特点:
1、主题性
不同于传统的数据库是应用于某个项目,数据仓库则是围绕一个主题进行获取数据和分析数据,以此来满足数据分析的需求。
比如p2p平台一个月内发生了多少交易额,分析那个时间段内现金的流入和流出最高,
2、集成性
我们上面说了,数据仓库的数据来源有数据库的数据、操作日志的数据、运营后台导入的数据、一些第三方接口的数据,原始数据来源不同,存储方式也各不相同,如果要整合成最终的数据集合,需要对数据进行抽取、清洗、转换的过程。
3、稳定性
数据仓库不允许对数据进行修改,只能进行查询和分析。
4、及时性
数据仓库一定要获取最新的数据,这样数据分析出来的结果才是有效的。
数据仓库如何集成不同的数据源?
上面说了数据仓库要将不同的数据源集合起来,那如何集合呢?这里就要介绍ETL的概念,ETL的是 Extract-Transform-Load 的缩写,主要描了数据从来源迁移到目标的几个过程:
1、Extract(抽取)
首先是读取数据源。
2、Transform(转换)
把数据转换成需要的纬度和格式,同时包含数据清洗,清洗掉一些噪音数据。
3、Load(加载)
把数据加载到目标仓库以供分析使用。
现在国内最常用的是一款基于Hadoop的开源数据仓库,名叫【Hive】,可以对存储在HDFS上的文件数据集进行查询和分析处理。
产品经理在实际工作中不能自认为把功能做完了就完了,需要对后续的数据表现进行跟踪分析,知道数据仓库以后,在和工程师的沟通中可以更精准的描述自己的需求,今天这篇数据仓库分享给大家,希望能帮助到不懂技术的小伙伴们。
评论(0)