中国工程院院士倪光南:把大数据当作生产力
【11月17日下午,中国工程院院士、中国科学院计算所研究员倪光南在第三届世界互联网大会中发表演讲。他表示,把大数据作为生产力,可能比把大数据作为一种财富更好、更全面。强调大数据生产力,会推动生产关系的发展、推动社会的发展,会创造无穷无尽的财富,甚至将来会对我们思维的发展造成很大的变革】
下面是现场演讲速记:
大数据很多人说大数据是财富,这里我们说把它作为生产力,生产力肯定能够产生财富,但是生产力是不是比财富更合适?因为一些经济学家告诉我们,生产力是最基本的,生产力决定生产关系,至少有一些经济学家是这么说的,今天的理论是这么说的。所以我们把大数据作为生产力,可能比大数据作为一种财富更好、更全面一点。我们强调大数据生产力,会推动生产关系的发展,推动社会的发展,当然会创造无穷无尽的财富,供大家参考,我们喜欢说把大数据作为生产力,进入大数据时代意味着进入了一个新的生产驱动时代,所以将来对于我们整个思维的发展将会造成很大的变革。
大数据的四种能力,或者说大数据的四个价值。
第一个是融合Fusion。当然包含了集成,集成意味着数据的物理上的聚集,量的聚集。这里更加强调的质的变化,当而数据汇聚起来融合以后,它的价值会更加提升,远远比原始数据简单的算术相加要多。所以我们用了融合的意思,在中文上融合可能把它理解成汇聚加融合,就是数量和质量的提升,是大数据给我们提供的能力或者提供的价值。
第二,云计算Cloud。当大数据达到一定量的时候,你要迅速的利用它,在我们需要的时候随时能够利用,传统计算架构已经不适用了,这时候应用的是Cloud。而云计算提供这种能力,和大数据相适应,云计算是为大数据而生的,或者说大数据和云计算相辅相成,两者之间互相推动,互相促进,是一个非常典型的例子。
第三,Insight,意思是我们可以说明察秋毫,当你有了大数据,世界万物的关系你可以分析出来,很多人说我们不在意什么因果关系,我们在意的是关系。谁和谁有关相性,不管怎么样,我们有了大数据,可以发生过去没有想象到的,过去我们在商业上面啤酒和尿不湿之间发生关系了,现在我们大数据会结合新的规律,人类可以发现新的规律、新的原理或者新的科学的创造。毫无疑问,通过理论分析,通过计算机到大数据,这是万物之间关系的方式。
第四,预见性。Foresight大数据给我们一种预示性,可以更进一步。我们预测到将来什么时候会发生什么事情,非常有可能发生事件的预测,可以通过语境分析,可以预测时间上的推进。
这四个要求、四个价值、四个能力是大数据给我们的,以前是没有的,对我们非常有意义,对政府做科学治理体系的建设非常有价值。
政府利用大数据来做信息建设,这里是用某一个部委,可能有相当类似,从顶层到中央政府到地方一直到基层,一个部委的信息化的建设。作为一个中央的部委,它将会命令一个要求,达到一个目的,大致上有相当的普遍性。
底层我们要对待的是什么呢?三大块。
第一块毫无疑问,大量的数据,你将要面临的一个部委的数据,我们知道从地方来讲,有200多个地级市,2800个县镇乡,我们相信中国部委的信息化大数据系统难度要比目前世界上任何国家的信息系统或者电子政务系统更难。
第二,我们是一个异构,因为与历史的关系,我们不可能在现在作为一个新的系统,我们是要集成历史上的信息系统。这些数据,这些信息系统可能是不同时期做的,不同公司的,所以你发现异构是相当清楚的,是完全不同的异构系统,你要把它融合起来,是一个很大的挑战。
第三,是部门上的保护,各个部门之间很难融合。毫无疑问,东南西北不同的地区差别都很大,而且地理位置的差异,这是我们面临的挑战。
我们要做电子政务大数据,我们未来要达到什么目的呢?根据三个需求,我们要把它汇聚起来、集成起来、融合起来,把这些信息和大数据资源融合起来。
审计、监管,政府部门要做这些事情,我们大数据是用来支撑当前工作,使它更有效地完成得更好;这以前做不到,现在可以做到,如果大数据我们可以有科学决策。一个政策将会产生什么效果?我们对这个政策进行预测,可以看到这是可行还是不可行,包括怎么改进。这是对于政府的科学决策,给予科学的工具来支持。所以我想这几个地方比较重要,我们分别来讲这三块。
第一块融合是很难的地方,当你要建造一个信息系统,你不能把政府工作停下来,因为信息化你能说我把这个部门关掉,等我两年以后做好了再开吗?不可能。每天还要继续工作,不可停顿。第一业务是不可以停顿的,信息系统必须在保证正常工作情况下进行,所以采用什么对策呢?
其实我们要把数据的获取的手段用一种很巧妙的方式,在它运作的时候,我能抓取它,不是停下来我把它拷贝下,把政府的数据库清理出来把数据拿过来不行。政府照常工作,在政府运营的工作中谁去抓取数据?这套办法就是这个例子,具体操作上大家知道怎么做数据库,不断地提取,不影响你正常工作,这是第一个挑战。
第二块,所有的政府部门是遍布全国的,实际上采用的是几家中国的运营商。我们要谈合作一起做,并行的做,这个可以想像代价多一点。还有一点难的是不同的数据类型,因为历史上数据都不是一次建的,不同厂家,不同规格。比如说面临的数据,我们知道你可能是不同的结构,你的数据库不同厂商,你的资源定义是不一样的,你的数据模型是不一样的。所以当你要用一个数据的时候,你会发这个数据库要用,用一个方法收集组合,但另外一个又是完全不同的。这里提出了智能的数据切片,实际上用一种相当于影射,没有一个地方我投影投到另一个地方,不同的数据库投到另外的投影,最终效果一样,最终是新的办法解决。最后我们的数据并不是很好的,有的数据很多垃圾,不是很合理的,你需要用一些很灵活的模型,各种演化的方法不断的改进。
我们看到最后的效果,用这样的方式我们支撑了1700个服务器,遍于全国的1700个服务器支撑这个系统。在200个城市里能够有3个PB的数据,但是我觉得大概一年无非增加十几个PB,不断增加,而且大概覆盖到98%,还是相当大的覆盖。应该说是一个足够大的规模,这是目前的效果。
刚才讲未来满足监管审计的要求,相对来说比简单一点,我们知道原来上报数据,就是给领导上报,比如一星期我们知道每个部门不一样,一周也有,半个月也有,一个月也有。现在来讲就可以自动实时上报,不需要报表,实时的可以从系统里抓取你的数据。过去政策性很难保证,现在没有问题。以前你很难知道它变化,现在是实时数据,这点没有问题,现在可以有权限地分配,更加合理的应用,这个大家可以想象,有这样的数据信息系统以后对于信息监管毫无疑问有很大的影响。
可以达到的实时效果是10秒,可以在10秒钟把任何的数据提取出来,这对于管理来讲有很大的效果。此外我们知道所有的历史变化你也可以得到,而且我们知道权限可以明确地分配,谁可以获取哪些数据,不同的权限可以看到不同的结果,包括系统管理看不到重要的数据,这个需要有很好的权限分配。
最后是我们对预测的效果。过去这种信息系统是大数据系统所做不到的,我们希望未来要实现。过去因为信息孤岛的问题,现在我们已经通过融合的手段可以把数据统一起来,使整个的权限数据可以互联互通。
我们过去来讲历史数据不一定有,今后的历史数据应该永远发展下去,永远保留下去;过去有些东西会删掉,现在这些会不断地积累下来;过去的数据会滞后,现在可以动态的实时分享,业务也可以联系起来,综合业务决策不是单路的决策。谢谢大家。