03 在大数据与深度学习中蝶化的人工智能(第3/11页)

互联网公司采用大数据方法,所获得的维度可以让传统银行吓一跳。BAT都开设了自己的金融服务,因为拥有全面且巨大的用户数据,可以查询客户的各种线上记录,比如是否有批量申请贷款等异常行为;还可以将客户信息与互联网全局信息比对,通过欺诈行为模式的比对分析其可信度;更进一步,还可以分析客户的消费行为和习惯,结合填报收入分析还款能力如何。当然,作为用户的隐私,这些数据都不会被公开,用户所能感受到的便利是征信排队时间极大地缩短了,因为大数据可以在几秒钟内就对申请者超过1万条的原始信息进行调取和审核,迅速核对数万个指标维度。

对一个陌生人进行征信就好比“盲人摸象”,传统方法是通过20个“盲人”去评估一个客户的信用“大象”,注定是有缺陷的。而大数据的多维度就如同几万人同时“摸象”,再把这几万人的反馈汇总到一起。维度越多,结论就越准确。

第三,处理非结构化数据的能力。结构化数据中最基本的数字、符号等,可以用固定的字段、长短和逻辑结构保存在数据库中,并用数据表的形式向人类展现(想一下常见的Excel表格),处理非常方便。但是互联网时代产生了大量非结构化数据,对于图片、视频、音频等内容,它们的数据量巨大却没有清晰的结构。对于图像的数据,我们只能理解为一个二维矩阵上的无数像素点。非结构化数据增长量很快,据推测将占未来10年新生数据总量的90%。而大数据技术可以通过图像识别、语音识别、自然语言分析等技术计算、分析大量非结构化数据,大大提升了数据维度。

非结构化数据的数量远超结构化数据,蕴含巨大能量,应用前景广阔。例如,在机场等公共场合的个人身份检查,过去只能根据旅客提供的身份信息这一个主要维度去判断其身份。而人脸识别、语音识别等技术应用成熟后,大数据可以直接通过摄像快速比对审核,增加对个人身份判断的维度,进行既精确又高效的安全检查。

第四,大数据是生生不息的“流”,具有时间性。它过去就不再回来,就像人无法两次踏入同一条河流。这一方面是因为数据量太巨大,无法全部存储;另一方面是大数据和人类生生不息的行动相关,瞬息万变。百度大数据实验室因此提出一个概念叫作“时空大数据”。

地图就是时空大数据之母。百度地图有一个路段拥堵预警功能。如果前方路段畅通会显示为绿色;如果拥堵则会显示成红色,提醒用户选择其他路线。这是我们与数据互动的一个简明例子。如果我们有A和B两条路线可以选择,此时A路线拥堵而B路线畅通,那么我们都会选择B路线;当越来越多的车主选择B路线,那么B路线将会变成拥堵而A路线又会畅通。此消彼长,变化万千。依靠智能手机的定位功能,百度地图可以实时更改当前的路况监测结果,精确地告诉每一个位置用户当前自己所面对的路面情况。通过数据可视化技术和各种评估手段,可以描绘一座城市的日常脉搏,比如上下班的人流数据变化,仿佛城市在吞吐呼吸。除了被记录下来的,更多数据只在当时有效。把数据全部存储下来是不可能的,那样需要的硬盘可能整座城市的地皮都堆不下,只能即时应用,用过就消失。

与时间数据博弈是富有挑战性的工作。2016年11月,百度正式接入公安部儿童失踪信息紧急发布平台,每当有儿童失踪事件发生时,百度地图和手机百度就会把失踪儿童的姓名、面貌特征、失踪时间等重要信息精准推送给失踪地点周边的用户,使用户可以第一时间参与找回失踪儿童的过程。而在失踪儿童被寻回后,百度地图和手机百度也会及时更新结案标识,让社会各界人士随时了解进展。能将信息早1秒钟提供给用户,就能给焦虑中的家庭多一分希望。

最后一点,也是最重要的,大数据的“大”表现为无尽的重复。对于语音识别来说,正因为人们重复讲述同样的语句,机器通过反复识别这些人类语音的细微差别,才能全面掌握人类语音。也正因为人们周而复始的运动,才让系统能捕捉城市运动的规律。“重复”的数学意义是“穷举”。以往人类无法通过穷举法来把握一个事情的规律,只能采用“取样”来估计,或者通过观察用简单明了的函数来代表事物规律,但大数据让穷举法这种“笨办法”变得可能了。

量变促成质变,在机器智能领域,数据量的大小和处理速度的快慢可以直接决定智能水平的高低。谷歌通过数据量提升翻译质量的故事早已不是秘密。