《智能语音时代》袁泽解读

《智能语音时代》| 袁泽解读

关于作者

詹姆斯·弗拉霍斯，《纽约时报》《科学美国人》《国家地理》等杂志资深记者，同时也是一位美国有名的科普作家，以兴趣盎然、发人深省的方式来讨论复杂难懂的科学问题见长。弗拉霍斯从上世纪80年代就开始跟踪报道语音技术，零距离见证了这一领域的研究进展，曾与这一领域中的许多杰出人物直接对话，本书中的许多观点就是来自于他对一手访谈资料的提炼。

关于本书

这本书是全面讲述智能语音技术的第一本书。我们正在进入语音时代，从智能语音助手到智能家居，这些智能语音产品已经开始融入我们的生活了。但这项技术对我们来说，不仅仅会给我们的生活带来便利。我们可以把它作为一把钥匙，看到整个人工智能领域背后的那套运转系统。在未来，智能语音技术进一步发展，很有可能会给我们的生活带来巨大改变。

核心内容

一、智能语音和人工智能有着怎样的关系？为什么说智能语音既是人工智能的起点，又是人工智能的终点？

二、智能语音技术会怎样改变人和工具之间的关系？

三、智能语音未来会对人类社会和我们的生活产生怎样的影响？

你好，欢迎每天听本书。我是袁泽。本期我要解读的这本书叫作《智能语音时代》。这本书主要说的是，智能语音技术，对我们来说到底意味着什么？

听起来，这个问题好像也不难回答，智能语音已经成为我们生活的一部分了。比如手机上的导航软件，里面有各种明星合成的声音，来帮你指路；很多新闻APP，都有虚拟主持人的语音播报；你可能已经买了不少智能家居，通过语音就能控制音乐、灯光、温度；你常去的酒店、医院、小区这些地方，已经有一些机器人能帮你打下手，而且是用语音操控的。

但是，如果智能语音跟一个普通的技术创新一样，只是给我们的生活带来更多便利而已，那你就很可能低估了它的影响力。

那智能语音到底意味着什么呢？我想和你分享两个特别有启发性的认知。第一个认知是，智能语音和目前另一项重要技术——人工智能有着密切的关系。我们可以把智能语音当做一把钥匙，从它可以看到整个人工智能背后的知识体系和运转系统。如果用一句话来总结，那就是：智能语音既是人工智能的起点，也是人工智能的终点。这话听起来有些矛盾，为什么这么说呢？一会儿我会为你解释。

再来看第二个认知：智能语音第一次改变了人和工具之间的关系。原来呢，是人类去适应工具，而智能语音出现以后，这件事就变成让工具去主动适应人。这跟以往任何技术都不一样。那这个变化会导致什么连锁反应，我在后面会为你详细解读。

本书的作者是詹姆斯·弗拉霍斯，他是很多杂志的资深记者，比如像《纽约时报》《科学美国人》《国家地理》等等，同时也是一位美国很有名的科普作家。弗拉霍斯从上世纪80年代就开始跟踪报道语音技术，30多年来，他零距离见证了这一领域的研究进展，还采访了许多智能语音领域的顶尖人物。本书中的许多观点，都来自于他的第一手采访资料。

接下来，我将分成两个部分，为你解读这本书。前一部分，我们重点来看智能语音的技术创新是怎样的，为什么说它既是人工智能的起点，又是终点。后一部分，我们来说说，智能语音到底怎么改变了人和工具之间的关系，又会给人类社会带来怎样的影响。

先说第一个方面，我将带你通过智能语音这个线索，看一看它和人工智能有着怎样的联系，回答刚才提出的第一个问题：为什么说智能语音既是人工智能的起点，也是终点。

首先，为什么智能语音是人工智能的起点？想要回答这个问题，我们先要了解人工智能的进化方式。在人工智能之前，从蒸汽机到宇宙飞船，几乎所有的科技创新，都是由某个人或某个团队，最先实现了技术上的突破。之后靠专家不断对它进行优化改良。这是人帮助机器更新迭代的方式。

但人类驯化人工智能的方式，与之前对待机器的方式完全不同。我们驯化人工智能的方式，是另外一种思维——让机器像人一样成长。人工智能的演化逻辑，其实是在模拟人脑的进化。它有一项核心技术，叫做神经网络。和之前技术发展最大的不同是，它让机器可以自己学习进化。

我们可以先通过了解人脑是怎么工作的，来理解人工智能的进化模式。人脑非常复杂，由1000亿个相互联结的神经元组成，神经元之间通过突触联结。当两个神经元同时得到频繁的刺激，两者之间的突触就变得牢固，联结得也就越强。比如说，我们在准备考试的时候，就有类似的经验：在考试前把要考的资料多背几遍，记得就牢一些。考试的时候再遇到你背过的题目，答案就自然出来了。这就是因为你大脑中不同的神经元的刺激得到强化，建立了联结。

人工智能就是模仿了这套记忆机制，科学家利用人脑中神经网络的原理，让计算机自主地建立不同神经元之间的联结。再通过外部的反馈，来让机器调整联结的方式，自我优化参数。在整个学习过程中，机器就像人类那样，在大量的经验数据中获取信息。这就相当于也给机器设置了一个大脑，让机器有了自主学习的能力。但与此同时，机器获取数据时，还比人脑更快更准确、更容易储存和复制。简单来说，人工智能最初就像一个拥有“超级大脑”的婴儿，它可以通过学习外部信息，不断调整“神经元”的连接方式、优化参数，自己实现进化。

既然人工智能要靠不断接受外部信息来实现进化，那么教它的“老师”自然也是越多越好，“老师”越多，信息输入也就越多。那怎么尽可能多地输入信息呢？最好的方法就是降低信息输入的门槛，没有门槛更好。什么才是没有门槛的信息输入方式呢？一定是说话。和机器互动，你不需要努力学习编程，也不需要看使用说明书，连打字你也可以不会。只要说话就行。这太容易了，每个人都可以做到。

从这个角度来看，我们可以说智能语音是人工智能的起点。它率先构建了一个不需要任何门槛，由全人类共同协作、共同建设的系统。机器在和每个人对话的过程中，时刻都在记录着你所传达给它的信息。不光是记录，它还能通过这些信息，不断实现自我迭代。所以，我们每个人都能成为人工智能的老师，这在科技史上是空前的。正是从语音这个起点，人工智能开始了它的进化之旅。

那为什么又说，智能语音是人工智能技术的终点呢？首先请你想一想，人工智能的终点意味着什么？从某种程度上可以说，终点意味着机器有了自由意志，它不再依赖已有的数据，不再由人类来定义，可以超越经验，对未来做出预判和选择。这也是科学家们一直想要达到的目标——让机器真正地实现“智能”。那怎么能够证明机器已经拥有了自由意志，可以对未来进行预测呢？这里我要提到一位著名的计算机科学家和哲学家，叫做珀尔。他认为，判断人工智能有没有自由意志的一个重要指标是，机器能不能做到反事实分析。

什么是“反事实分析”？你可以把它理解成一种逻辑关系，简单来说，它的命题是这样的：如果没有第一件事，那么第二件事就不会发生。从某种意义上，我们可以说这是一种预设思维。比如，你想要抽烟，但转念一想，抽烟可是有害身体健康的。如果我不抽烟，那么损害我身体健康的这件事就不会发生。这就是你的反事实分析能力。你可以超越现在的经验，对未来的事情进行判断。当然了，无论你抽还是不抽，都是你的自由意志来决定的，而不是别人强行灌输给你的。

人和人聊天的本质，其实就是一个“反事实分析”的过程。比如我们两个对话，你说出一句话，我首先要做的可不是直接回应，而是在分析：假如我这样回答你的话，你会有什么反应？我如果不这样回答又会发生什么？这么说你可能有些困惑，我们来想象一下这个常见的场景：

上班的路上，你碰到了同事。同事对你说：“今天天气真不错！”大多数情况下，我猜你会回答：“是呀，确实不错！”其实你和同事都知道，你们不是真的想谈天气，这只不过是给你们的聊天找一个话头罢了。那如果你不接这话，或者不回答，会发生什么呢？那就可能会让场面变得很尴尬。这就是反事实分析在起作用。再看看目前的智能语音，它可想不了这么多。如果你拿着的是苹果手机，不妨对着Siri来一句：“今天天气真好！”你看看它会怎么回你。它会立马调出今天的天气预报给你看。

你看，人们交流的过程，其实就是在用反事实分析进行预测。我在和你聊天时，会先做一个预判，就是如果我这样回应你，你会有什么反应；如果不这样回应，又会发生什么。但现在的人工智能只能做到在大量的数据中，检索到你说的关键词，从丰富的资料库中挑出一种最适合你的回应。这是两种完全不同的逻辑。

说到这，你应该就会明白，为什么说智能语音的发展，也可以说是人工智能的终点。当机器都可以预判，进行反事实分析的时候，就意味着它从某种程度上具备了人类主动思考的能力。而能不能做到反事实分析，可以直接从人和机器的交流中看出来。一旦智能语音成熟了，也就代表着人工智能实现了重大的突破。

这里我也有很深的感受。我在北大读的专业属于应用语言学，我记得读过一本叫做《汉语和汉语研究十五讲》的书，它的封面上写着：“在接近语言的途中，我们接触到人类精神的核心，人之所以为人的独一无二的特征。”你看，语言可以说是人类最重要的思维工具，人类利用语言认识世界，积累经验，交流信息，彼此展开协作。可以说有了语言，人类才能成为万物之灵。但是呢，当另外一个物种也能用人类的方式进行交流的时候，或许我们就可以说，它也具有了人性，就算没有，也至少实现了真正意义上的“智能”。

好了，以上就是我要说的第一部分，为什么说智能语音既是人工智能技术的起点，也是终点。智能语音第一次带来了不需要任何门槛的全人类的协作，人工智能的自我演化就此开始。而一旦机器能真正用人类的方式进行沟通，做出超越经验的预判，在某种程度上就可以说，人工智能开始有了自由意志，真正实现了所谓的“智能”。

接下来第二部分，我们来说说第二个认知：智能语音第一次改变了人和工具之间的关系。怎么改变的呢？这些改变又会对人类社会和我们的生活产生怎样的影响？我从书里为你总结了三点。

第一，智能语音第一次改变了人与工具之间的互动关系。原来，无论人类发明出什么样的工具，都是要人去努力适应它们，而智能语音出现以后，就变成让工具去主动适应人，用人最舒服最自然的方式工作。举个例子来说，之前罗辑思维有一档节目，叫作《武器的进化》。里面讲到了武器作为人类历史上一种重要的战争工具，它是怎么一步步进化到今天这个样子的。比如，最早的火器也是一种枪，叫火绳枪。怎么用呢？先从枪管前面装上火药，然后装上子弹，把火药点着，砰，打一枪。士兵想要用好这种武器，其实挺麻烦的，要花很大的功夫来配合火绳枪，调整自己的装弹和发射的动作。再到后来，这项技术的不断成熟，出现了机枪。虽说装弹发射方便多了，但是你也还是要去瞄准、按动扳机，去掌握一套关于使用机枪的动作要领。说回来，还是要让人去适应工具。

再举个生活中常见的例子，你在用电脑打字的时候要手指弯曲，在键盘上敲来敲去。你还要一直盯着屏幕，甚至有时候一坐一天，到了晚上，可能还会觉得腰酸背痛，眼睛发涩。你看，人类发明出计算机这个工具，确实能帮我们实现很多之前做不到的事。但是，你在用它的时候，本质上还是在努力地适应它的运转方式。无论有再多方法，帮你提高打字效率、简化操作步骤，其实都只是尽可能地降低我们适应这个工具的成本而已。

而智能语音扭转了这层关系，第一次让工具来适应人最自然的行为方式。你在使用智能语音产品的时候，不需要记住一套复杂的操作流程，甚至不需要有任何动作，说话就可以了。我们可以再跟着作者开一下脑洞，也许在不久的将来，就会出现这样的情景：从你家浴室的水龙头到孩子玩的布娃娃，只要简单地加上一个麦克风和一个Wi-Fi芯片，任何装置都能实现语音驱动。到了那个时候，从某种程度上就可以说，通过智能语音这项技术，人类也可以让任何工具，都以我们最舒服最自然的方式运转。这个改变，很有可能让你不用去适应任何一个工具或者一项技术，你只需要动动嘴，就能操控周围的绝大多数工具来为你服务。

这是第一个改变，智能语音第一次改变了人和工具之间的互动关系。下面我们再来说第二个改变：工具能够反向塑造人类的认知方式和学习行为。

一直以来，人类学习的过程，基本上都是先收集客观世界的信息，然后在头脑中整合加工，内化成情景化、有意义的知识体系。这是一个探索的过程。在没有互联网之前，找到一个问题的答案是很难的，光查资料就很费劲，更何况还要筛选、整理。有了互联网之后，收集信息变得轻松和方便多了，但是，你在网上搜集来的资料还是需要你进行判断、整合的。

但有了智能语音之后，学习的探索过程可能会就此消失。我们只需要直接提出问题，你的智能语音助手会以最快的速度，直接给到你准确的答案。你看，这就和我们之前的学习模式有很大不同了，从提问，到直接收到答案，中间的信息整合和加工环节，智能语音已经帮你完成了，而且是在短短的几秒钟之内。

正因为如此，本书的作者也表达了一些担忧，因为智能语音这项技术很有可能让加工信息这个过程消亡。这可能导致人类本身的学习能力急剧退化，我们可能会在智力活动上变得不再那么积极了，基本不会自己去整合信息，寻找答案了。也就是说，智能语音也许会让我们变懒，甚至是停止思考，等待着现成的答案。但也有一种比较乐观的看法：每当一项新的发明减少了人类劳动时，人们就可以把更多的时间和精力投入到更高的目标中去。借助人工智能我们可以迅速获取信息，可以使我们更快地将学到的知识用到新的推论和发明中去。

上面我们说了，智能语音技术能让我们快速获取信息，转变学习和思考方式，同时也有可能使我们的学习能力下降。但这毕竟是对于未来的一个设想，而另一项隐患，已经引起了广泛的关注。没错，就是智能语音带来的隐私问题。在以前，还从来没有出现过哪种工具，能够对人类的隐私安全造成如此巨大的威胁。智能语音操控的家庭电子设备，很有可能会把我们的生活暴露于全面的监视和控制之下。

拿智能音箱来说，表面上看起来，只有你说出关键词的时候，才能够唤醒它。但你又怎么知道，自己私密的谈话，没有被偷偷记录下来呢？智能语音很像一个随时待命的士兵，听见你说的唤醒关键词后就会立即开启，也就是说，它一直都在默默地听着你说的每一句话。仔细想想，是不是觉得很恐怖？这就相当于，始终有一个沉默的观察者一言不发地潜伏在你身边，记录下你的一举一动，发回云端进行分析。如果记录的数据足够多，也许会在云端生成另一个你，对你的偏好、习惯都了如指掌。有人说，“买一个智能音箱，实际上是在花钱让一家大型科技公司监视你。”

在隐私方面，还有一个更加严重的问题，就是对我们的安全威胁。当智能设备的权限越来越大，收集的数据越来越多，跟我们的生活关系越来越紧密的时候，就会存在另一个风险：被黑客入侵。只要黑客获取了你的登录账号和密码，他就能听到你的全部信息。而目前，我们还没有什么特别好的方法来解决这个问题。我们能够做的，也许只能是给我们自己的设备，换一套安全可靠的密码了。

以上就是我们要说的第二部分。总结一下，智能语音在未来进一步发展，极有可能从此改人和工具之间的关系，带给我们前所未有的便利，帮助我们快速而准确地获取信息。当然，目前智能语音对个人数据无节制的收取和应用，很可能会引发潜在的社会问题，我们的隐私和安全是智能语音在发展过程中的一个重要议题。

到这里，这本《智能语音时代》的精华内容，已经为你解读完了。我们来简单总结一下：

首先，这本书不仅仅是一本技术通史，通过智能语音这把钥匙，我们能够看到人工智能领域背后的运转系统。可以说，智能语音既是人工智能的起点，也是人工智能的终点。

我们帮助人工智能演化迭代方式是模拟人类大脑，让机器在深度学习的基础上，尽可能更多接触到外部信息，不断调整内部“神经元”的联结方式、优化参数。而正是智能语音这项技术率先构建了一个不需要任何门槛，由全人类共同协作的学习系统。在和每一个用户对话的过程中，机器时刻都在实现自我迭代。从语音这个起点，人工智能开始了它的进化之旅。而当机器可以用人类最本质的方式进行交流的时候，也就是能够在对话过程中，用反事实分析进预判的时候，从某种程度上可以说，机器本身已经有了自由意志。这也足以说明语音背后的人工智能技术发生了巨变。一旦智能语音成熟，也就意味着人工智能实现了重大的技术突破。

此外，智能语音的发展第一次改变了人和技术之间的关系，会对我们的社会和生活产生不小的影响。它极有可能让人类不需要努力去适应工具，会反向塑造我们学习和获取信息的方式。当然，在隐私安全方面，智能语音产品也会给我们带来前所未有的威胁。

以上就是这本书的精华内容，点击音频下方的“文稿”，查收我们为你准备的全文和脑图。你还可以点击红包分享按钮，把这本书免费分享给你的朋友。恭喜你，又听完了一本书。

撰稿：袁泽脑图：摩西脑图工作室转述：徐昆鹏

划重点

智能语音第一次带来了不需要任何门槛的全人类的协作，人工智能的自我演化就此开始。
智能语音在未来进一步发展，极有可能从此改人和工具之间的关系，带给我们前所未有的便利，帮助我们快速而准确地获取信息。

《智能语音时代》 袁泽解读