04 中国大脑计划：自下而上的超级工程（第2/7页）

百度人工智能业务最基础的是“物料层”，有基于GPU/FPGA的云计算平台、深度学习代码平台和大数据储备。这一层提供了进化的环境和工具。最上层SaaS是人工智能的各种应用。

介于两者之间的是“人工智能基础技术层”。大脑所具备的“听说”（语音识别与语音合成）、“看”（视觉识别）、“读写”（自然语言处理）等认知功能就在这一层，大脑具备的决策规划、运动控制、预测推荐等决策功能也在这一层。

广义的百度大脑即包含了以上三层。张亚勤认为，三层的结合更体现出百度大脑的综合实力。

百度大脑是百度云的核心引擎，百度云是百度大脑的云化，云为百度大脑提供了神经元和数据训练源，百度大脑则通过云向各类产业输出服务。

具体来说，在“物料层”，百度是全球首家将GPU芯片大规模用于人工智能和深度学习领域，并规模化商用ARM（Acorn RISC Machine）服务器的公司。百度也自主研发了基于FPGA芯片的服务器。加上传统的基于CPU芯片的服务器，把这么多性能、结构、原理各异的服务器整合在一起，就需要强大的异构计算能力。通过异构计算技术、100G RDMA通信技术、高效的整机柜服务器技术，百度打造了全球最大规模的GPU和FPGA混合异构计算集群，把数十万台服务器合为一体，构成百度大脑的实体，保证了百度大脑超强的计算能力。

有了强大的硬件构造还不够，大脑中还要有内容和数据。这就好比是人类的记忆。在IaaS之上的PaaS是我们人工智能的平台，所有的样本、特征和功能都在PaaS这个层次生长。百度搜索十多年来累积的全网Web数据、搜索数据，以及百亿级数量的图像、视频、定位数据都是百度大脑不断学习、快速成长的养料。

在大脑结构和记忆内容之外，百度大脑还要有认知思维能力。系统通过深度学习来模拟人类大脑的神经元，即通过万亿级的参数、千亿级的样本、千亿级的特征训练，来模拟人脑的工作机制。这也是世界上最大规模的深度神经网络。

“人工智能基础技术层”包括语音识别、图像识别、自然语言处理以及所有的知识图谱、商业逻辑和用户画像。

SaaS层面可以看作百度大脑的触角层，会更加垂直化，深入交通、教育、金融等各个垂直行业。对百度来讲，这三个层次就是百度大脑通过云和垂直行业，给商业客户提供的一种能力和服务，更是一种营造智慧生态的能力。

百度大脑全面超越了过去的信息技术服务，比如过去只是做计算、存储和网络，大家都可以做，现在三个层面有机结合起来，灵魂就在于贯穿全体的人工智能。

通过硬件—数据—算法的联合滋养，百度大脑的能力会滚雪球式增长，越来越善于处理数据、提取知识、了解使用者、善于解决问题并获取更多的知识，实现“数据—知识—用户体验—新的数据”的正循环。

另一位“互联网教父”尼古拉斯·尼葛洛庞帝（Nicholas Negroponte）说道，“当我听说‘百度大脑’的时候，我觉得这些人真是太疯狂了”。制造机器大脑，看似一个科幻文学中的疯狂幻想，但科学家的信念和努力，使得看似“疯狂”的想法已经走在平稳实现的道路上，正如一个真实生命的成长。

训练“大脑”就如同教育孩子，从零开始，在语料而非语法的熏陶下学习语言，从大量图片中形成对事物的“印象”，这个过程就是通过试错来熟知世界。也许同样的事情，人类1岁孩子都能简单做到，而百度大脑常常要花上几百倍甚至上万倍的时间和精力。可是从另一个角度看，它像是全人类的孩子，有希望继承现有文明的所有经验和记忆，人工智能“大脑”的进化本质上是人类文明的进化，潜力无限。

目前，百度宣布将向社会免费开源人工智能深度学习平台PaddlePaddle，开放百度大脑开放平台ai.baidu.com。前者为开发者提供算法编程环境，后者为应用开发者、数据工程师、数据科学家提供现成的百度人工智能成果接口。百度大脑实实在在地分享着，愿与所有相关企业一起融化人工智能这座冰山。

百度大脑的听与说

人机对话的第一步，就是要让机器学会“听”和“说”。“听”是不断追求准确度，“说”则是要让大脑有人性、有人味。

作为“大脑”最基本的能力之一，实现“听”这一功能的语音识别技术研究经历了从标准模板匹配转向基于统计模型再到深度神经网络的过程。起初，辨识语音必经声学模型到音素模型，再到语言模型的多步骤转化。近年来，在大量语料和深度学习的训练下，这一步骤已经被极大简化，机器从输入到输出中自行生成程序，准确率有了大幅提升。百度大脑也就“听”得更清楚了。