海外网搜索 海外网首页移动客户端 评论 资讯 财经 华人 台湾 香港 历史 社区 视频 新加坡 德国 荷兰 滚动
  • 两会观察:2017年我国GDP将如何演绎?
  • ###
  • 两会观察:中国养老问题如何解局?
  • 两会观察:中国养老问题如何解局?

专家语录

采访实录

编者按:2014年-2017年,“大数据”连续四年成为政府工作报告中的“座上客”。国务院总理李克强曾指出“目前我国的信息数据资源80%以上掌握在各级政府手里。”因此,如何破解政府信息“孤岛”难题,充分利用政府数据资源,激活数据价值,让大数据助力实体经济转型升级成为今年两会期间的热点议题。

对此,北京大学国家发展研究院教授沈艳分析称,我国拥有世界最大的人口规模以及网民规模,大数据资源十分丰富。关键在于要让企业、学术机构和不同群体参与到数据的使用与发掘当中,这对于促进经济发展,实现传统经济向新经济的顺利转型,具有重要意义。

以下为采访实录:

■大小数据运用应根据研究目的选取

海外网财经:如今,海量数据正在以前所未有的广度和深度影响着人们的生活。与此伴随的是越来越多的人开始回归大数据的本源问题,探讨大数据的定义,在您看来,数据、小数据,大数据的区别及联系是什么?

沈艳:为了回答这个问题,我先查了一下词典,我认为韦伯斯特词典关于‘数据’的定义对于理解如今何为大小数据的讨论,有借鉴意义。词典的第一条提到‘数据’叫factory information,就是“事实性信息”,这个事实性的信息是用来推理、讨论和计算的;然后第二条比较有意思,第二条是说由感知装置或者是器官的信息输出。其中,这些信息既可能包含有用的信息,也有可能包含多余的无用信息,需要经过处理才能够有意义的信息。这样一来我们通常要回归到数据的本源上讨论到统计。统计最早开始于人口统计,古代君王想知道自己到底统治了多少人就需要人口统计。由此我们来看小数据它有几个特点,第一个,它是为特定目的收集的,比如说我要统计这个国家有多少人;第二个,我们看它多半是结构化数据,比如我有一个专门的年鉴,上面记录我们某一年有多少人,男的多少人,女的有多少;第三个,在使用过程中比较透明,大家都拿一本年鉴,看我们俩分析的本领谁更强,所以这个时候不同的学者可以用同一套数据,也可以交叉验证研究结论。

海外网财经:那么与小数据相比,大数据又有哪些特点?

沈艳:大数据通常说有三个‘V’,volum,velocity和variety,主要就是数据量大,实时,种类多等等。大数据的生成过程和小数据不同之处在于大多数的大数据本身并不是为了一个特定目的搜集的,比如说我们在网络上搜索,我们只是为了满足我的需要,但是搜索背后的公司把这个信息利用起来,把它变成了一个大数据。所以,它记录的颗粒比较细,包含很多冗余的信息,它对于分析和处理要求比较高。

所以,这里我打了个比方,好像在同一天有两个孩子出生,A家庭是传统家庭,做法是每年到生日的时候,就带孩子到照相馆照照片,所以十年我有十张照片记录了孩子的成长。B家庭是未来式的家庭,他家里安装摄像头,只要孩子到的地方就会录到这个孩子。这样,这个孩子从0岁到10岁,在这个家里面都有了录像。在这里,A家庭做法类似于小数据,收集的目标很清晰,就是要记录孩子的成长。虽然有可能时间和金钱成本相对比较高,但是输出的结果也是很清晰。第二种类似于大数据的处理方法。

因为技术的进步,允许我们用颗粒更细的方法来记录信息,记录信息的成本大幅降低,我们全部都储存在网上或者移动硬盘就可以记录很多很多信息。但是,这个数据收集的目标是不清楚的,家庭为什么收集这个信息,万一将来有用呢,也说不清楚什么用处,因此它在使用和分析的时候成本就比较高。我从这个例子想说明,大数据并不一定比小数据更好,其实它取决于你的目的,假如我记录孩子成长,单纯为这一个目的的话,那么我前面说的小数据的例子,我把照片这样放下来,可能是很感人的,很好的过程。另外一方面,如果这个家里出了一个突发事件,孩子受伤了,想知道孩子是怎么受伤的,这个时候你调用颗粒度很细的那个录像,就能够帮助到了。所以当我们说到大数据和小数据的区别的时候,虽然它们在表象上,大数据能够记录更多的信息,但是它的颗粒度更细,它有更多的多余的信息,但是它对于分析的要求是更高的,不见得大数据一定更好,它取决于你要研究的问题,你的目的是什么。

■大数据分析需要“大小结合”、“人机结合”

海外网财经:您在之前的采访中提到过,大数据发展谨防“一哄而上”,据悉我国目前数据污染严重,很多原始数据存在夸大或瞒报现象。面对此现状,您认为可靠的大数据分析需要具备哪些关键点?

沈艳:可靠的大数据分析具备什么样的特征。我举一些例子,首先我觉得从我们刚才的比方来看,一个有效的分析它一定是分析目标比较明确,你的目标明确在于什么呢,是不是这个目标只用大数据分析才能实现,还是高质量的小数据就够了,又或者是需要大数据和小数据相结合。可靠的大数据分析,第一个是目标要明确,有的问题高质量的小数据足够了,类似于刚刚我说的,我要记录孩子成长就够了,或者我们要了解一个地区的经济发展的基本状况,回溯它历史发展的年革,一个产业在一个地区的形成、基本的结构和格局,那这些信息,我们其实高质量的小数据就够了,专门部门为我们收集的资料就够了。

另外有一些问题它可能需要大数据和小数据的结合,比如我们曾经做的新经济指数,想要刻画新的经济部门在国家当中的变迁。那么,当你在构造这个框架的时候,就需要结合现有的一些小数据。

第二个关键点,就是数据的质量很重要。其实从我们刚刚那个比方能够看出,即便我有大量的信息,假如我只是这个孩子一个上午的活动,可能还不如我十年的照片给我的信息量更大。所以数据量这里一个常用的说法叫‘垃圾进,垃圾出’,也就是说如果数据源的质量不够好的话,也就不要指望后面分析结果的质量会高。至于原始数据存在夸大瞒报这样的问题,我觉得后面我们还会讲到,更多的是细节,一方面是可能是存在故意,但是不能忽视的事情,度量这个经济活动的各个方面,本来就是很不容易的任务,大数据数量大、实时,更多信息是冗余,所以其实对于数据质量它有更高的要求。

第三就是数据分析方法,你得有好的方法,我才能有好的数据分析的产品和结果,那么其实在我看来,孤立的使用大数据做出好产品的情形我很少看到。

海外网财经:也就是说在实际操作过程中要将大数据和小数据互相融合?

沈艳:对,是这样。主要原因有这么几个。第一个,大数据一般不是有目的的收集,产生很多数据以后,人们把它记录下来,这个收集的过程使得我们需要评估这个数据质量,并且需要一些标准。而这些标准往往需要我们用一些小数据来验证。所以,我认为可靠的大数据有这样两个特征,一个叫大小结合,大数据和小数据相结合,第二个也是最近的一个心得,叫人机结合。

大小结合我们已经说了,你拿到大数据,那么这个数据本身质量怎么样,往往需要用很多小数据去验证。

第二个人机结合,是说其实在数据分析的过程当中它有很多参数,比如这个数据怎么清洗怎么整理,这些东西都是要经过人去做,一些关键参数的设定,它是需要人脑去完成的,所以一个好的产品最后我们应该也是人的直觉上也是能通过的。我这里举个例子,大家知道去年比较热的事情,就是Alpha Go以Master为名战胜各大围棋高手,有人说这是机器打败人类,说这是大数据的胜利,也是人工智能的胜利。其实我觉得,这是一个看问题的视角。但另外一个角度是:人类利用数据和开发数据的能力的证明。在这个例子当中,它其实一定程度上,首先是大小数据的结合,小数据指的历代经典的棋谱,大数据就是这个程序写完之后他要跟很多不同的人去对弈,这个过程也是一个机器学习的机会。所以,它是一个人机结合的过程,

那么这个人机结合,它不仅指人类教给机器人类的思维方式,因为这个Alpha Go的原理在于深度学习,近似于人类的学习的步骤。另外一个视角,是未来一个发展趋势,一方面是教给机器人怎么思考,另外一方面你也可以给人装备机器具有的一些能力。其实,这个我们已经有体会了,比如说我要去某一个方面,我拿着手机GPS搜索一下就可以了,我们原来可能没有办法那么简单就到某个地方,这就是人借住机器的步骤。比如《必然》那本书里头讲到现在的国际象棋冠军Magnus Carlsen,他就特别善于利用人机的结合,利用人工智能来下棋,所以这是挺经典的实际应用的例子。所以,我认为大小结合不仅指的数据分析的时候你需要小数据,另外在评估一个大数据的质量好坏的时候,我也会需要使用小数据,比如谷歌流感趋势刚开始出来的时候特别火,说它可以提早两个礼拜去预测流感,但是在后期它的预测不那么准了,不那么准的标准就是美国疾控中心的预测可以比它做的更好。大小数据的结合,一个可靠的分析,大数据如果不能做的比小数据好,我们可能就需要考量一下。

另外还要避免“垃圾进,垃圾出”,这就需要有很多的高质量人才,参与到数据质量的评估和数据质量的分析当中。从“人机结合”这个角度你可以往前看能够看到需要跨界的人才。比如说我要做音乐领域的大数据的产品,那我不仅需要懂算法的人,我也需要懂乐理、懂音乐、甚至懂人文心理的一些人,需要懂得用户心理,要怎么呈现给他们,他们才更愿意接受。

■大数据战略逐步推进,智能制造将成主攻方向

海外网财经:今年的政府工作报告中提到,加快大数据、云计算、物联网应用,以新技术新业态新模式,推动传统产业生产、管理和营销模式变革。这已经是“大数据”相关表述连续第四年被写入政府工作报告。就您看来,国家目前对大数据战略地位的落实进行到了哪个阶段?

沈艳:对于这一问题我们还是得回到最早的一些提法当中,首先看看十三五规划,十三五规划的27章提出我们要实施国家大数据战略,这里头指出把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享和应用,助力产业转型。然后在这章第二节,促进大数据产业健康发展里头提出要深化大数据在各行业的新应用,探索与传统产业发展的新模式,加快完善产业链,促进大数据软硬件产品发展。

所以,要理解我们现在处在哪个阶段,首先要梳理我们国家大数据发展本身的基本发展状态,这个我们可以从比较权威的历年的政府工作报告中一见端倪。虽然每年都在提,其实提法是不一样的,我们来看一下,2014年大数据这个词首次出现在政府工作报告中,在2014年工作重点这个部分,提出设立新型产业创业创新平台最新一代移动通信,集成电路,大数据,先进制造能源,新能源新材料等方面,赶超先进引领未来产业发展。那么2015年的是在总体工作部署当中提到,要制定互联网+的行动计划,推动移动互联网云计算,大数据,物联网等与现代制造业结合。到2016年介绍十三五主要目标和重大举措的时候提出要促进大数据广泛运用。到了今年,大数据两处被提及,一是总结2016年工作的时候,提出深入推进“互联网+”,实施国家大数据战略,全面实施《中国制造2025》;二是2017年工作重点中提出深入实施《中国制造2025》加快大数据、云计算、物联网应用,以新技术新业态新模式推动传统产业生产管理和营销变革。接着提到说,把发展智能制造作为主攻方向,推进国家智能制造示范区,制造创新中心等等,目标是中国制造向中高端迈进。我们从历年政府工作措词当中可以看出来在2014年的时候,国家对基本上还是处于头脑风暴期。

海外网财经:只是意识到这个东西起来了,要追上这个风口,可以这样理解吗?

沈艳:对,在那个时候我们的态度叫“赶超先进”,我们后面不提赶超先进了,因为在大数据发展的某些领域里头我们就是先进。第一个在2014年它基本还是处于头脑风暴期,所以对它的期望是赶超先进引领未来,大数据只是作为跟互联网,云计算,物联网,这几个概念连在一起提出;到了2015年的时候,就开始提出大数据要跟现代制造业相结合,但是怎么结合,就没有再具体,这时已经从这个概念想到将大数据跟实业、现代制造业相结合。

海外网财经:但是当时好像没有明确的怎么结合,没有清晰的脉络?

沈艳:对,还没有清晰的脉络。2016年展望十三五期间,用的词是“促进”。到了今年,对于过去工作的总结,是深入推进国家大数据战略,值得注意的是2017年指出要“加快”,这个词说明一个态度,在具体应用方面也更明确了。这个明确是以发展智能制造作为我们的主攻方向。我个人认为,这几个梳理下来说明在促进健康发展方面,我国在过去几年的大数据产业发展过程中已经积累了不少经验,这个经验使得我们对于大数据如何跟传统产业之间协同发展,形成新的业务模式,已经找到了明确的切入点,这个切入点就是智能制造。所以,可以预见的是:智能制造在未来有很大的发展空间。什么是智能制造,它可以有两个部分,一个是说智能制造的技术,还有一个是智能制造的系统。

再举个例子,我们讲到怎么样跟我们国家智能制造去结合,比如说现在大家都很重视健身,但是其实健身有个很大的缺陷,到健身房,跑步机特别无聊,如果可以近似徒步的那种感觉就会很不同。

海外网财经:是否类似于VR,给你打造一个场景,丰富你在跑步过程中的体验?

沈艳:对,是VR。对,比如可以制造一个小房间一样,然后设定具体的场景,去模拟在大峡谷徒步。这时就需要知道当时在不同的时刻的温度,湿度,大自然的声音,各种天气条件,气象条件等。虚拟现实和人工智能其实早就有了,为什么过去发展不起来了,主要因为其一就是移动互联发展到现在这个地步,人迹可以遍布很多地方,人本身就是一个收集信息的装置。第二个,收集到的这些信息就是大数据,数据的分析技术如果到达了,就可以把这个数据的分析做得相当好。在这里数据相当于原料,算法是它的外壳,包装起来以后,整个系统就可以根据人的习惯去做一些调整,设定应用的场景。

可以想象在未来人工智能会跟很多领域、跟我们生活当中很多场景结合起来,我们人越来越能够把人工智能的东西用到我自己个性化的一些创作当中去。比如说有人他做营销研究,他会用一个专门的装置来监测广告放出来的时候消费者主要关注的是哪些,这个能说明你这个广告到底成功不成功。智能制造使得这个屏幕本身就已经可以感受到人的视线,这对于广告业可能带来很大的影响。

这些听起来好像很神乎其神,可是世界的发展和变化很快,互联网、算法、大数据,这三个东西让智能制造成为非常重要的切入点。所以,从政府工作报告本身来看,我觉得国家在这四年的产业发展当中已经积累了不少的经验,未来应该会有蛮好的前景。

■政府数据公开需要专门机构统筹治理

海外网财经:既然大数据已经被提到国家战略地位,那么政府数据公开的程度和广度将在很大程度上决定着大数据的未来发展水平。您认为目前政府数据公开的过程中面临的挑战和问题又是什么?

沈艳:这个时代算是突然降临的一个时代,因为从我自己2003年回国到现在,我们国家对于数据相关的工作的重视程度这几年忽然就上来了。然而,应该用什么步骤用什么方法来开放政府数据,还是有很多实际困难。

第一个困难就是开放数据的合法性,合法性本身,我们说到统计法的问题,虽然统计法的第三章第七条规定“县级以上人民政府统计机构和有关统计部门调查取得的统计资料除依法应当保密的以外,应当及时开放,供社会公众查询”。这个是说的开放的部分,但是其实地方统计部门不太容易拿捏有哪些东西该开放,哪些东西不该开放。比如说统计法的第三章第五条就规定,“县级以上人民政府有关部门统计调查取得的统计资料由本部门按照国家有关规定公布”,有关规定我们也不知道具体根据在哪里,所以这个本身是开放数据的合法性问题。

第二个是数据质量、数据标准与质量良莠不齐。开放的过程中有这样的问题,先不说合并不同省份不同部门的数据,就是同一家大型机构内部的数据,一个部委内部的数据,都有可能因为定义不同,质量差异大不好使用。那么我这里头举了一个例子,中国工商银行的行长杨凯生,在他著作《金融笔记》当中,就详细介绍过工商银行大数据建设和运用的过程,其中他就花了很大篇幅来介绍工商银行的数据治理和标准化的步骤,其中只信息标准化这一项就总结出五个统一:定义统一,口径统一,名字统一,来源统一,参照统一。他书中提到在他自身数据标准制定的过程中,采样或者说服从了上百种国家标准和国家部门部委的标准。

其实我们也存在第三个问题,就是数据共享标准不清楚。我们知道大数据讲“数据孤岛”,比如我作为一家大数据公司,我自己有关于消费者消费的详细数据,可是我除了一个人的消费状况以外,对于他的收入、家庭结构一无所知,这个就是数据孤岛。所以数据需要整合和打通,可以把这个人不同维度加到一起去。打通以后,把点变成一个面,这就需要不同的部门之间信息共享。

海外网财经:如果想要实现政府数据开放,并且达到预期效果,该如何应对以上您提到的这些现实挑战?

沈艳:在我看来,如果政府希望能够达到数据开放的预期效果,就要有步骤有计划地来实行。关键的一步就是数据的整合,但是整合并不是哪一个部门能做得到的,比如说大家都是平级的部委,没有一个机构能够说的动别人一起来做,也不见得合适。所以,我认为首先还是需要有专门的机构来统筹数据治理和整合工作。此外,这个专门机构可能需要比较高层的领导来负责,这样才能够把控、统筹安排全局,把大家调动起来,能够开始制定相应的能够统一使用的标准,有了标准之后,我们要明确以下三点:第一是开放什么,第二是对谁开放,第三是怎么开放。

对于开放什么,这个可以梳理一下其它国家开放数据的经验,然后制定我国的开放数据的时间表,这个问题还是很紧迫的。

关于“对谁开放”和“如何开放”的问题,我觉得可以一起讨论。这里需要明确的是开放不等于免费,也不等于对所有的公众都开放,政府的数据要按照安全等级来分级,有些数据是国家机密所以无法开放,涉及满足公众知情权的数据就是应该免费开放。另外,对于其它的组织或者群体可以考虑有偿开放,这样权责比较清楚,当数据发生泄漏时就可以有责可追。这样既满足公众的知情权,又能够使数据安全在一定的可控范围之内。

最后,我希望这些讨论不要成为推行开放数据的障碍,我们只是希望在推行的过程当中对于可能出现的障碍有一个清晰的认识,然后一步一步的解决它,促进大数据产业健康发展。

到了大数据时代,数据是一种资产,我国拥有世界上最大的人口规模,网民数量也居全球第一,所以我国的数据资源非常丰富。因此,让企业,学术机构等不同群体的人尽快参与到数据使用和挖掘当中,我觉得对于实现传统经济向新经济顺利转型、保持可持续发展具有重要意义。

海外网财经:好的,这次的探讨到此结束,感谢沈老师接受我们的采访。

点击显示全部