03 在大数据与深度学习中蝶化的人工智能(第2/11页)

那么数据生活距离我们遥远了吗?正相反,在新的技术条件下,数据与我们日常生活的联系从未如此紧密过。我们的祖先很久以前就学会有条理地储存数据,但是从没像今天的我们一样如此活跃、具体地记录着自己与世界。

从最初的计算器、摄像头,到家用计算机、智能手机,再到大数据和人工智能,我们不断升级采集和利用数据的方式。而现在,从一辆车的每日碳排放量统计到全球气温的监测,从对每个人在网上发言喜好的分析到对总统选举时投票趋势的预测,从预测一只股票的涨跌幅度到观察评估整个经济系统的发展,我们都可以做到。数据将人与人、人与世界连接起来,构成一张繁密的网络,每个人都在影响世界,而每个人也在被他人影响。这种从微观到宏观的辩证关系就如同在全人类身上发生的量子力学现象,其中孕育着解答无数问题的真理。传统的统计方法已经无法处理这种相互影响的数据。怎么办?答案是让机器自己来处理数据,从数据里习得知识。这便是当代人工智能的本质。

早在60年前,人工智能就已经被科学家当作一门严肃科学来研究。即便普通老百姓都对人工智能兴趣盎然,然而人工智能却在“二战”后人类科技高速发展的几十年间鲜有突破。直到今天,我们才忽然发现各种人工智能的概念如雨后春笋般冒出来,以大数据、AlphaGo、百度无人车等新面貌闯入我们的生活。

如果把人工智能的技术比作一颗早产的心脏,那么它曾经患有两个先天不足:一是在互联网爆发之前,研究人工智能所能调用的数据量太少,这是“供血不足”;二是硬件上的不足导致缺乏解决复杂问题的计算能力,这是“心力不足”。数据如同血液,硬件如同血管,直到互联网应用突飞猛进,计算机的计算能力平均1年翻一番且计算架构出现革命性变化,这两个问题才迎刃而解。奔涌的数据血液进入物理身体的每一个角落,图像识别、语音识别、自然语言处理……睁开了眼睛、竖起了耳朵、张开了嘴巴,机器之心“活”了!

数据书写生活史

数据已经深深“浸入”我们的生活。计算机、智能手机、各种智能家居用品,贴身收集着我们的一言一行,通过计算建模越来越了解我们,使得看新闻、运动健身、吃饭、听歌、出行等这些最简单的日常活动都成为一次次隆重的数据盛典。

一部智能手机一天之内就可以为他的主人生产1G的数据。这大概是13套《二十四史》的总容量。我们每天都在用数据书写自己浩瀚的“生活史”。

与传统意义上的数据记录定义不同,这种数据是有“生命”的。这种记录不是客观又绝对的数学测量,也不是一板一眼的历史写作。它更像是我们身体的一种自然延伸:倾听我们的声音、拓宽我们的视力、加深我们的记忆,甚至组成一个以数据形式存在的“我”。如果说智能手机已成为人类的新器官,那么数据就是这个新器官所接收到的“第六感”。而处理这种“第六感”的新大脑正是冉冉升起的人工智能。

大数据——万物皆数

既然人类运用数据已久,而且自工业革命以来,数据经历过一次又一次的爆发,何以近年来才出现“大数据”的概念?仅仅是它所能记录和计算的数据量更多而已吗?自然数可以无限数下去,1、2、3、4,以至于无穷,但“多”是不够的,还必须具有几大特征:

第一,大数据的“大”。毋庸置疑,这个“大”相对于人类传统数据的储存方式,不是一个量级上的大小之分,而是几何量级的差距。想想百度地图上每日720亿次的定位请求,再想想互联网上每天有多少次点击、社交媒体上每天有多少文字和图片发出……各种大数据平台一天之内收集到的数据量就可以超越人类几千年来文字、图像的总和。

第二,大数据的另一个重要特点是多维度。多维度代表着大数据可以对一个事物进行多方位的描述,从而更准确。

在电影《谍影重重》里出现过一个大数据公司,能够根据互联网数据、交通数据、历史档案等各种维度的数据帮助美国中央情报局(CIA)迅速追踪和定位疑犯。现实中美国的Plantir数据公司便是如此帮助美国政府追踪本·拉登,提供反恐信息和社会危机预警。它们更常见的业务是识破金融诈骗。

以金融征信应用为例,传统金融机构在进行征信时,一般采集20个维度左右的数据,主要包括年龄、收入、学历、职业、房产车产、借贷情况等。然后综合评分来识别客户的还款能力和还款意愿,决定信贷额度。