出品公众号:“SELF格致论道讲坛”(ID:SELFtalks),作者:单桂华,中国科学院计算机网络信息中心研究员
“这里有四组数据,每组数据都不一样,当我们用通常的统计方法来看这些数据的时候,它们的方差、相关性系统值都完全一样,看不出任何差别。但是,当我们用可视化方法把这些数据画出来时,就能一眼发现它们的不同,特别是第四组数据,它其实是一只可爱的小恐龙。”
可视化是什么?其实可视化离我们很近,比如堪称年度恐怖大片的支付宝账单,年年刷爆朋友圈,大家可能都被吓到过。这是因为可视化太直观了,它们把数据转化为形象的图表,让人们一目了然、快速地获取信息,可以追踪自己的饮食和消费习惯,于是人们看完就想剁手。
各国GDP数据
当然还可以复杂一些。这是大家熟悉的excel数据表,它记录的是世界银行统计的各国GDP的历史数据。密密麻麻的几页,给我们一天的时间也很难发现里面有什么规律。那我们把它可视化出来看看。
可以看到各个国家不同年度的GDP值和排序变化,美国遥遥领先。总体来说,各个国家的GDP值都在增长,增长的快慢决定其排名的变化。中国上下徘徊几次后,从1990年开始就义无反顾往上窜,势头很猛,直到2010年稳定在第二。
我们还可以跟这个图进行交互,如果很想看看法国和中国,我们就可以选中它们,重点看它们的变化和相互关系,可以看到中国在哪一年超越了法国。
这就是可视化,把隐藏在数据中的规律化作直观的图像,让数据开口讲故事。这里用到的是最简单的可视化元素——柱状图。
数据的表现形式——统计图
说到柱状图,我们不得不提一个重要的人物——威廉·普莱费尔,他是苏格兰一位非常有名的政治经济学家,两百多年前他就意识到一个现象:那些身居高位、业务繁忙的商人只需要关注一些统计结果,根本不需要大费周折去研究具体细节。
于是他设计出世界上第一个柱状图。世界上第一台计算机是1946年才问世,所以这个柱状图是纯手工绘制。
各国进出口贸易额
上图展示了苏格兰与其它各国的进出口贸易额。17年后,他又再接再厉,创造了世界第一个饼图,曲线图。
土耳其帝国在各州土地面积
这个饼图展示了土耳其帝国当时在非洲、欧洲、亚洲所占领的土地面积。
英国与北美进出口贸易差
这个曲线图展示的是英国与北美的进出口贸易差。虽然这些是200年前绘制的图表,但这些表现形式我们到现在还经常使用,可见这位普莱费尔的伟大。
玫瑰图
这张图很像盛开的玫瑰,它有一个美丽的名字——玫瑰图。
故事发生在1855年,克里米亚战争期间,英军伤亡惨重,当时一个叫南丁格尔的战地护士,她通过搜集数据,发现很大部分死亡原因其实并非是“战死沙场”,而是因为在战场外感染了疾病,或是在战场上受伤,却没有得到适当的护理。于是她设计了这个玫瑰图。
南丁格尔图/玫瑰图:战争死亡统计图
把圆分成12分,代表十二个月。蓝色面积表示死于感染的士兵,红色表示死于战场的重伤,灰色表示其它原因。很明显,蓝色区域的面积明显远大于其他区域,这张图一目了然地揭示了战士死亡的真正原因。
南丁格尔把这份结果呈现给军队和伊丽莎白女王,促成了世界第一座战地医院的建立。也正因为有了战地医院及时的医治与护理,死亡率从42%减低到2.2%,可以说这张图挽救了很多战士的生命,这也足以证明可视化对信息传递的重要性。
无论是柱状图饼图还是曲线图玫瑰图,从本质上来说,都是统计结果的可视化。统计对分析当然很重要,但是光有统计是不够的。
图中有四组数据,每组数据都不一样。当我们用通常的统计方法来看这个数据的时候发现,它x轴的均值y轴均值,方差、相关性系统值都完全一样,看不出任何差别,很多特征信息都丢失了。看来统计方法是不行了,那我们用更高级的可视化方法试一下。
我们把这些数据画出来,就能一眼发现它们的不同,有九个点状的、有X形的、有五角星形状的,特别是第四组是一只可爱的恐龙。
很有意思,可视化通过图像迅速吸收、消化数据并把特征信息形象的传递给我们。可是当数据越来越大,故事越来越复杂,怎么画数据就是一个难题了。
如果我们像刚才画恐龙那样把数据直接画出来,问题又来了,什么也看不见,所以我们需要研究新的可视化算法。“体绘制技术”可以帮我们穿透这团迷雾。通过这种方法可以清晰地看到它是一只手,还可以透过皮肤,看到血管与骨骼。
可视化的实际应用
宇宙演化模拟数据
这是一个天文学家给我们的140亿年宇宙演化的模拟数据,大概有90TB的数据量,我们翻一年也翻不完。
这么大的数据,这么复杂的故事,需要用到超级计算机和各种复杂的可视化算法,才能把它里面隐藏的特征信息形象的表达出来。天文学家只能把它们画成简单能量谱的曲线。
当我们把它可视化出来的时候,跟我们合作的天文学家震惊了,这是他们第一次可以直观地看到自己模拟的整个宇宙及其动态演化。
宇宙结构模拟
上图是这个数据的可视化结果,就是我们现在宇宙的样子。这些星系经历了140亿年的穿行,形成现在的各种星系团结构,这些星团之间有一些丝状结构的连接在一起,也许左下角飞过的小亮点就是我们的地球。
这个是最大的星系团,是我们银河系的一万倍,我们可以清晰地看到它的内部层次,它通过140亿年不断吞噬合并其它星系而形成了现在这样一个庞大的天体结构。
星系演化模拟图
天文学家还想看看这些大星系团是怎么一步一步演化而来的。于是我们可以挑出天文学家感兴趣的局部的区域。
可以看到,一开始粒子均匀分布,后来在引力的作用下,逐渐成各种不同的小团,大团直接吞噬小团,两个相当的大团相互碰撞,合并最终形成一个超大的星系团。
星系演化模拟图
天文学家还需要进一步分析其中的一个小的星系团,想看看它们在这场大的演化运动中,怎么由小小的几个星系团合并。
我们可以看到,刚开始,慢慢形成几个小团,然后合并,之后几度险些被冲散,最终有惊无险顽强地合并在一起。
有了可视化,天文学家不费吹灰之力,就有了一台指哪打哪的望远镜,而且还可以穿越历史。当然要实现这些,我们突破了一系列关键技术,从数据组织与压缩、并行与GPU加速绘制、色调映射、所见即所得的时序分析及特征结构挖掘等一系列算法来做支撑。
黑洞吸积盘流场可视化
黑洞也是天文学家特别关心的问题。我们都知道黑洞无限制吞噬吸收周围的物质,实际上在这个过程中也会产生高速的喷流。
2013年欧洲XMM牛顿太空望远镜发现了黑洞会喷射重金属流的现象。这些现象的背后的具体机制是个不解之谜,也是天文界的重大科学问题。
如果想要研究这个问题,首先需要用计算机来模拟这个现象。中科院上海天文台的科学家们想要进一步研究它的机理。但是模拟的结果对不对,模型算法合不合理,没有标准去验证。
同时,对于粒子是怎么进入黑洞,他们内部也有不同的看法。所以他们找到我们,问我们有没有什么办法让他们直观看看数据,来验证他们的方法。
我们为他们定制了这样一个可视化的工具,帮助他们直观地分析数据,看看物质是怎么进入黑洞,以什么样的轨迹进入黑洞,有没有物质喷射出来,如何喷射出来。
采用轨迹线的方法,手动在他们感兴趣的区域撒点,就像我们在河里撒一些泡沫以观察河流的缓急。我们可以清楚到看到粒子是怎么运动的,在哪儿开始被吞噬,正如科学家期待的那样,这里确实有物质喷出。
洋流可视化
我们都知道洋流对海洋航运,气候、地理环境都有很重要的影响。可是面对茫茫的大海,观测资料很少,科学家迫切需要清楚地看到整个海洋的洋流情况。直到有了卫星,有了超级计算机之后,我们才得到了更准确高精度的模拟数据。
将这些数据可视化可以让科学家直观地看到上图的画面,这对科学家来说是非常关键的,因为他们能清楚地看到洋流的速度、方向、温度变化情况。比如说图中这些涡和流,它们的相互作用但对科学家来说意义重大。通过可视化我们甚至还可以观测海洋污染,比如石油泄漏,潜水艇可以更加安全地航行。
中国局部地形图
我们经常遇到雾霾天,可能你们没有从这个角度来看过雾霾。这是中国局部地形图,红色代表北京,黄色代表武汉,中间就是雾霾,不同的颜色代表不同浓度,底层像河流一样的代表大气的风场。
通过这样的可视化,科学家从这里可以看到雾霾是怎么在风场和地理环境的影响下,从北京传输到武汉的。这对他们理解雾霾的传输过程很重要,可以更好地揭示不同地区间雾霾发生的相互关系。
我们不仅帮助大气学家来寻找雾霾来源,也在辅助物理学家去寻找清洁能源。核能就是一种清洁能源,但是核废料却对环境有污染,处理核废料,国际上最有效的方法,就是利用ADS嬗变系统。它可以用核废料发电,还能解决核辐射问题。
中科院近代物理所牵头研究这一技术,以上是他们委托我们做的嬗变系统的可视化。
这些粒子正在直接加速器上冲刺,下方条状图显示,一开始,粒子团变化巨大,在加速过程中慢慢趋向稳定。管道中,红色和蓝色的椎体是不同的磁极,这些磁极的强度与分布,还有粒子的初始速度,都是可以调节的。
科学家可以直观地看到这些数值调节以后的效果。目前,该研究工作已成功结题,正转化为国家大科学装置,准备开工建设。
高铁可视化
最后说说大家都熟悉的高铁。
其实,高铁投入生产之前,科学家需要做很多工作。比如,为了以最少能量获取最高的速度,我们需要让尾部的涡旋尽可能地小,这样行驶过程中的阻力更小。
我们要从高铁尾部产生的海量流线里,帮助科学家找到最感兴趣的尾部涡旋,也就是大家看到视频当中运动的曲线。在这个过程中,科学家通过可视化,可以看到不同参数情况下涡旋的大小变化,就可以辅助高铁的设计优化。
未来的可视化会是什么样子呢?可视化也许会脱离屏幕的限制,真正走到我们面前,或许你一个动作,一个眼神,就可以进行可视化的互动,就跟现在科幻电影里的场景一样,我相信,这一天很快就会到来。
本文出品自“SELF格致论道讲坛”公众号(SELFtalks),转载请注明公众号出处,未经授权不得转载。
相关推荐
90TB数据,还原140亿年宇宙演化过程
「土豆数据」:定位地理信息空间云服务商,真实还原你眼中的山河湖海
宇宙有多重?
马斯克坚信的“矩阵模拟”,是一种怎样“烧脑”的存在?
宇宙是什么形状的?
什么是平行宇宙?
即刻孵化「小宇宙」:听一个播客,然后成为它宇宙的一员
2019,诺贝尔物理学奖获得者回答宇宙终极问题
即刻「还魂」,低调推出「Comeet」和「小宇宙」
宇宙物质起源的证据,找到了?
网址: 90TB数据,还原140亿年宇宙演化过程 http://m.xishuta.com/newsview7074.html