年底快到了,又到了“打工人”做汇报的时候,也许你负责市场部,可能你是销售负责人,或者仅仅汇报个人在几个项目中的表现,无论怎样,你都不可能把原始数据展示给大家,你或多或少会采用某种“可视化”的方法,直观传达你想表达的重点信息,那么问题来了,可视化包含什么,怎么做可视化,有哪些方法可以做好可视化?
有人把可视化简单理解,不就是Excel上画画图表吗?可以说这属于可视化,但仅仅是可视化在Office软件里的一种表现形式,可视化的历史及发展远不止于此,比如这个1812-1813年拿破仑进军莫斯科的历史事件的流图可视化(作于1869年)被誉为史上最好的统计可视化。
可视化对应两个英文单词:Visualize(可视)和Visualization(可视化),前者是动词,意即“生成符合人类感知”的图像:通过可视元素传递信息。后者是名词,表达“使某物、某事可见的动作或事实”;从我们比较熟悉的角度来说,可视化是利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术,也就是对某个原本不可见的事物中(如大量堆叠的数据)形成可感知的可视信息(如图形、符号、颜色、纹理)的过程或能力。
可视化实际上综合了计算机图形学、设计、心理物理学、数据科学和人机交互等多门学科,它们之间的关系是,心理学和设计学是基础,而计算机将其推到了智能层面。
我们用一个很简单的例子来说明什么是可视化,来看第一幅图,请你找出“5”
接下来第二幅,请你找出“5”,发现容易多了,可视化就是这个含义,将要表达的东西一目了然呈现。
用科学的解释是,它运用了视知觉里的“前注意视觉”原理, 人的“前注意”这套系统掌控我们分辨视觉差异在哪里,而不用理解整体事物是什么,所以在这阶段人几乎不需要努力,甚至意识不到它的发生,自然而然地“看”到了。
在信息学科中,最基本的模型是“数据、信息、知识、智慧”即DIKW,它以数据为基层架构,按照信息流顺序依次完成数据到智慧的转换。而看着是反过来,尽可能让用户以少量的认知成本,迅速理解你要表达的含义,进而对整个数据集、整体业务有一个全面的认知。
数据可视化是商业智慧(BI)的集中表现形式,现在越来越多的企业有了BI部门,商业智能是对商业信息的收集、管理和分析的过程,目的是使得企业各级决策者获得知识或洞察力,促使他们对企业做出有力的决策,BI要提取出数据中的商业价值,再通过可视化的方式分析、解释、呈现给更多的用户,后面这个过程是和数据可视化是重合的,如下图:
来源:https://webpages.uncc.edu/krs/courses/6010/ 及 百度大数据报告
我们再简化一下,只有三个环节:数据、设计和故事。起初是“数据”,但数据不够直观让用户读懂,就有了“设计”,最后,根据可视化设计,提炼成为“故事”或者“知识”,自己可以得出结论,或者演示给别人。
数 据
数据是可视化的基础,这点甚至已经深入到每个可视化工具中,比如Tableau,首先需要导入用户数据,否则不可能生成一个新的数据可视化图。
全球数据产生量到2020年,将达到35.2 * 1021字节,像淘宝每天在线商业交易日志高达50TB,包括类目、商品信息等“物理”数据,还有用户产生的下单、评论、社交互动等消费行为数据,这些都是数据可视化的原材料。
1、数据收集
通常企业里面至少有两个部门管理数据,你可能在BI部门或市场部门,不过你要找到数据部门的同事,可能还要经过运维部门来提取日志,他们会问你,到底你要什么数据,把需求说清楚,还有很多线下数据,你都要想清楚。
不同的公司获得数据范围不一样,在这篇文章,我们假设是营销、消费场景,还是建议你阅读一下我们已经分享过的《CDP的12种常用数据来源》,里面列明了可能获取的数据来源:
1) 线下店面和线上销售数据
2) 网页浏览数据
3) 市场调研数据
4) 客户服务数据
5) 销售部门数据
6) 广告平台产生的数据
7) 网络数据分析后的数据
8) 营销自动化平台产生的数据
9) 用户会员数据
10) APP产生的数据
11) 考古数据(比如存在以往计算机里的数据,故纸堆里的数据)
12) 可穿戴设备以及更多的物联网数据
2、数据清洗
数据清洗(Data cleaning)是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。由于上述数据来源非常广泛,我们要清洗掉数据中的“噪声”、“数据错误”、“数值重复”,将不完整的数据做适当补充。
这个过程里需要将“数据格式”调为统一的格式,也许你习惯采用在Excel录入处理数据,但大部分数据并没有那么简单。有大量非结构化数据,你需要学会使用别的方法,比如会用分隔符分割你的文本,会从JSON转为CSV,会找到XML格式的数据,实际上市面上有一些格式转化、清洗的工具可以助你一臂之力,像OpenRefine、trifacta wrangler、Mr.Data Converter(免费的) 等等。
来源:trifacta wrangler系统界面
3、数据整合与集成
整理完数据之后,恐怕你还不能马上使用,因为数据仅仅是被格式化好的数据,你要按照一个标准整理到你想要的数据集里面。
以我们熟悉的淘宝商品数据举例,可能你清洗过的数据,只能是
“优衣库、男装、160/76A/XS、存货50件”,这一条数据,仍然是比较凌乱,用户的阅读是组块化的,价格、运费、尺码、颜色等,你需要整理到对应的组块里。
可视化分析通常使用的数据整合,同我们在Excel表里整理的数据还有很多不同,通常Excel表是不用连接数据源的,它基本上使用同一张表里的数据,而随着数据的复杂度增加,我们是需要建立虚拟的整合方式,构建一个虚拟层,供很多可视化分析的接口调用,而现在更为复杂的数据联机存储方式,连数据源都不在同一个地方,需要实际位置不同数据源的集成。
在数据整合的基础上,我们利用统计和数据挖掘的方法,对数据进行分析,包括探索式数据分析,然后得到一些信息,再通过可视化的方式加以直观呈现。
来源:联机分析处理OLAP(数据分析的一种方法)
实际上,数据分析的信息与可视化是一张纸的两面,是可以相互转化的,就好像你在展示数据表与图一样,背后用得都是同一套数据分析和挖掘的方法。但可视化的意义又在于,它能够超越一般的数据分析,这里想举一个经典的例子,统计学家F.J. Anscombe构造的Quartet是一组四个数据集,它们的统计数据非常相似,但是将它们可视化之后却完全不同。
设 计
设计是一种狭义的“可视化”,正如前述,它要从已经形成了一定分析与挖掘的数据中,通过图形形成可被用户直观理解的“视觉编码”。
正如数据可视化专家Alberto Cairo在他的书中“The Functional Art”说道:对于任何图表和可视化,其首要和最主要的目标是要其成为一个工具,从而让你的眼睛和头脑能够感知超越器官之外的事物。
可视化的设计原则,是各个公司或专家的经验总结,这里想引用蚂蚁集团的“AntV”设计原则,AntV 经过大量的项目实战经验,总结了四条核心原则:准确、清晰、有效、美,这四条原则按重要等级先后排序,相辅相成且呈递进关系。
1. 准确
可视表达时不歪曲,不误导,不遗漏,精准如实反应数据的特征信息。如下图:某基金收益率趋势图,合理的值域区间可以反映真实的数据波动趋势。
来源:蚂蚁Ant Design
2. 清晰
清晰包括两个层面,结构清晰与内容清晰。
结构清晰:数据可视化呈现的是一幅作品,它是制作者分析思路的呈现,其布局决定阅读者的浏览顺序。可视化领域可以参照Tableau的界面,比如解释美国不同地区的销售情况,可以用地图以及趋势图来表示。
来源:Tableau
内容清晰:用图形解释需要遵从一定的符号学规则,因为人受到教育以及在生活中的长期认知已经形成了一定的习惯,你就要用尽可能合适的图形来“解释”,如果你还不是很清楚什么代表什么,可以阅读Cleveland和McGill所著述的论文“数据分析的图形化感知和图形化方法”,已深入了解人们如何是编码以及利用色彩的。
如果在解释过程中,无法用图形、颜色来说明,不要吝惜,要用少量文字在上面有所解释,或者用好图例,深代表什么,浅代表什么。
3. 有效
可视化设计是有重点的,让用户更加关注什么, 克制不冗余,避免信息过载,用最适量的数据-油墨比(Data-ink Ratio)表达对用户最有用的信息。可视化的目的就是用可视的方式尽量减轻用户的观看负担,不要让用户反复去找。
来源:百度
4. 美
可视化设计中还要体现一定的美学因素,好的形式表达可以更加容易吸引用户的注意力,人们可以通过对图片的探索,来发现原始数据中存在的关联,引起他们的思考。所以可视化的美,一定是合理利用视觉元素进行映射,运用格式塔原理对数据进行分组,既能帮助用户更快的获取信息,在一定程度上建立一种秩序美、规律美。
稍微提醒一下,再“美”的东西,也不要忘记坐标轴、图例和数据来源等基本数据元素,毕竟不是一篇艺术作品。
这里想举一个综合的例子,Ventusky这个可视化网站,可以即时显示世界各地天气的总趋势,左侧是一些关于气候的不同维度。选择不同的维度,地图会根据位置的情况来进行展示,下方是时间维度,可以查看历史的天气
https://www.ventusky.com/
故 事
我们回想一下可视化的目的,最终是为了发现蕴藏在数字背后的信息、真相,这个故事首先是要讲给自己听的,然后再讲给别人,故事能够激发出思想,展示出以前难以理解或解释的观点,而讲故事的方式是既简单又复杂的艺术。
1. 讲故事的原则
· 带领观众/用户组块理解和领悟大规模的数据
· 进行直观的比较和对比
· 发现趋势和模式
· 反映可能会被忽略的问题
比如这个前后对比,就可以这样表达
之前 | 之后 |
|
|
Tableau还有一个“数据故事类型”及说明,也是很好的经验总结
数据故事类型 |
说明 |
随着时间而改变 |
其作用:使用年表来说明一个趋势。 开头讨论:为什么会发生这种情况,为什么会一直发生?我们能做什么来阻止或促使这种情况发生? |
下钻查询 |
其作用:设置上下文,以便您的受众更好地了解特定类别中发生的事件。 开头讨论:为什么这个人、地点或事件与众不同?如何比较这个人、地点或事件的表现? |
缩小 |
其作用:描述您的受众关注的内容与大局的关系。 开头的讨论:您关注的内容与大局相比会是怎样?一个方面对大局有什么影响?
|
对比 |
其作用:表明两个或多个主题的差异。 开头讨论:这些项为什么会不同?我们如何能使 A 表现得像 B?我们应该关注哪个方面,哪个方面做得很好? |
十字路口 |
其作用:当一种类别超过另一种类别时突出重要的转变。 开头讨论:是什么原因导致这些转变?这些转变是好还是坏?这些转变如何影响我们计划的其他方面?
|
因素 |
其作用:通过将主题分成不同类型或类别来解释主题。 开头讨论:是否存在我们应该更多关注的一个特定类别?这些项对我们关注的指标有多大的影响? |
|
其作用:显示异常或事件的特别异常之处。 开头讨论:为什么此项不同? |
2. 善用大屏
有人讲到可视化,言必提“大屏”,接下来与和领导展示,面子工程挂钩,有人认为这种“大屏”可有可无,实际工作还是要用电脑“踏踏实实”看数据做分析。我第一次看到“大屏”是2010年前后在阿里巴巴工作的时候,它把产生的每一单从发货地到收货地做了一个动态弧线展示,可以发现每秒钟都有无数订单升起,看起来是很震撼,现在阿里应该已经展示不过来了,但我们当时从上到下都是有数据分析的,而且产品和运营都是在指导行动,虽然也有展示,实际的数据管理同样深入人心。
我个人是这样看待这个问题的:
第一, 有些场景确实需要综合决策,比如公安警情分析、疫情群防群控、或者到一个单位内部的生产流水线的进度、各生产设备运营情况,这一点无论是政府还是企业来讲,数字化转型大趋势已经有了,通过数据化决策意识在加强。
第二, 现场决策提升效率,这对于解决实际问题很有好处,过去都要层层审批人工决策,现在大家现场决策,避免人工干扰,高层看到的也是一手、准确的数据,他也好决定判断,现场人都在,找谁问一下。
第三, 对于团队内部的自我激励,目标量化考评(KPI、OKR)、各团队完成进度,做成可视化,每天在办公室或会议室的显眼之处展示,对完成好的团队是一种鼓励,对尚未完成的团队是一种激励
第四, 还有的公司把竞争对手的情况、行业宏观经济的情况,在大屏上展示,时刻洞悉市场的脉搏
其实讲故事的方式,还有很多。同时,故事亦可反过来指导可视化整个项目的行动,获取什么数据,怎么进行可视化设计、展示。在我们越来越强调机器学习的今天,可视化反倒是建立在人类对图像规律的识别远强于计算机这一假说上的,它的实质是利用人的心理特性来产生某种直觉,进而强化某种思考,接下来指导特定行动。
签约作者介绍
陆易斯,互联网和金融复合背景,多个从零到一的产品规划者,曾在百度、搜狗、阿里巴巴、京东、去哪儿等公司,现任诚美创投投资总监,关注消费科技与企业服务方向。
精选文章
超全!优化师面试的“潜”规则指导手册~
来看看你的同行,作为优化师,他们最害怕什么?
ocpc智能化投放时代,优化师会失业吗?
宁阿姨专栏|我做了4年信息流,经历过这些震惊的时刻
宁阿姨专访|讲真,你以为的不是你以为的
2020年SEM小搜投放指南:竞价小渠道你做到极致了吗?
ocpc不好控制?高能优化师也可以试试ecpc
评论(0)