03 在大数据与深度学习中蝶化的人工智能（第3/11页）

互联网公司采用大数据方法，所获得的维度可以让传统银行吓一跳。BAT都开设了自己的金融服务，因为拥有全面且巨大的用户数据，可以查询客户的各种线上记录，比如是否有批量申请贷款等异常行为；还可以将客户信息与互联网全局信息比对，通过欺诈行为模式的比对分析其可信度；更进一步，还可以分析客户的消费行为和习惯，结合填报收入分析还款能力如何。当然，作为用户的隐私，这些数据都不会被公开，用户所能感受到的便利是征信排队时间极大地缩短了，因为大数据可以在几秒钟内就对申请者超过1万条的原始信息进行调取和审核，迅速核对数万个指标维度。

对一个陌生人进行征信就好比“盲人摸象”，传统方法是通过20个“盲人”去评估一个客户的信用“大象”，注定是有缺陷的。而大数据的多维度就如同几万人同时“摸象”，再把这几万人的反馈汇总到一起。维度越多，结论就越准确。

第三，处理非结构化数据的能力。结构化数据中最基本的数字、符号等，可以用固定的字段、长短和逻辑结构保存在数据库中，并用数据表的形式向人类展现（想一下常见的Excel表格），处理非常方便。但是互联网时代产生了大量非结构化数据，对于图片、视频、音频等内容，它们的数据量巨大却没有清晰的结构。对于图像的数据，我们只能理解为一个二维矩阵上的无数像素点。非结构化数据增长量很快，据推测将占未来10年新生数据总量的90%。而大数据技术可以通过图像识别、语音识别、自然语言分析等技术计算、分析大量非结构化数据，大大提升了数据维度。

非结构化数据的数量远超结构化数据，蕴含巨大能量，应用前景广阔。例如，在机场等公共场合的个人身份检查，过去只能根据旅客提供的身份信息这一个主要维度去判断其身份。而人脸识别、语音识别等技术应用成熟后，大数据可以直接通过摄像快速比对审核，增加对个人身份判断的维度，进行既精确又高效的安全检查。

第四，大数据是生生不息的“流”，具有时间性。它过去就不再回来，就像人无法两次踏入同一条河流。这一方面是因为数据量太巨大，无法全部存储；另一方面是大数据和人类生生不息的行动相关，瞬息万变。百度大数据实验室因此提出一个概念叫作“时空大数据”。

地图就是时空大数据之母。百度地图有一个路段拥堵预警功能。如果前方路段畅通会显示为绿色；如果拥堵则会显示成红色，提醒用户选择其他路线。这是我们与数据互动的一个简明例子。如果我们有A和B两条路线可以选择，此时A路线拥堵而B路线畅通，那么我们都会选择B路线；当越来越多的车主选择B路线，那么B路线将会变成拥堵而A路线又会畅通。此消彼长，变化万千。依靠智能手机的定位功能，百度地图可以实时更改当前的路况监测结果，精确地告诉每一个位置用户当前自己所面对的路面情况。通过数据可视化技术和各种评估手段，可以描绘一座城市的日常脉搏，比如上下班的人流数据变化，仿佛城市在吞吐呼吸。除了被记录下来的，更多数据只在当时有效。把数据全部存储下来是不可能的，那样需要的硬盘可能整座城市的地皮都堆不下，只能即时应用，用过就消失。

与时间数据博弈是富有挑战性的工作。2016年11月，百度正式接入公安部儿童失踪信息紧急发布平台，每当有儿童失踪事件发生时，百度地图和手机百度就会把失踪儿童的姓名、面貌特征、失踪时间等重要信息精准推送给失踪地点周边的用户，使用户可以第一时间参与找回失踪儿童的过程。而在失踪儿童被寻回后，百度地图和手机百度也会及时更新结案标识，让社会各界人士随时了解进展。能将信息早1秒钟提供给用户，就能给焦虑中的家庭多一分希望。

最后一点，也是最重要的，大数据的“大”表现为无尽的重复。对于语音识别来说，正因为人们重复讲述同样的语句，机器通过反复识别这些人类语音的细微差别，才能全面掌握人类语音。也正因为人们周而复始的运动，才让系统能捕捉城市运动的规律。“重复”的数学意义是“穷举”。以往人类无法通过穷举法来把握一个事情的规律，只能采用“取样”来估计，或者通过观察用简单明了的函数来代表事物规律，但大数据让穷举法这种“笨办法”变得可能了。

量变促成质变，在机器智能领域，数据量的大小和处理速度的快慢可以直接决定智能水平的高低。谷歌通过数据量提升翻译质量的故事早已不是秘密。