《链接》 刘家琦解读
《链接》| 刘家琦解读
关于作者
本书的作者艾伯特-拉斯洛·巴拉巴西是科学界的一位巨星,全球复杂网络研究第一人,无尺度网络模型的创立者。他的论文被引用次数达到10万次,是诺贝尔物理学奖获奖呼声颇高的一位候选者。
关于本书
在《链接》这本书里,作者揭示了复杂网络的起源——从随机网络到无尺度网络。复杂性蕴含于万物之间的链接,我们看到在网络中,表面的无序和深层的有序共存。网络普遍具有先发优势、适者生存、健壮和脆弱并存的特点,枢纽节点和层级结构在各种网络中广泛存在。这些复杂网络的规律,成了我们今天高效利用大数据,进而发展人工智能的一把钥匙。
核心内容
本书的思想核心是:链接是无处不在的,复杂网络的本质是无尺度网络。充分理解网络无尺度的特点,对于我们理解和分析各种复杂事物大有裨益。抓住复杂网络中的枢纽节点,是我们处理复杂数据的基本原则,也是人工智能背后的深度神经网络的重要基础。
你好,欢迎你每天听本书。今天为你解读的是《链接:商业、科学与生活的新思维》,这本书的中文版大约28万字,我会用大约25分钟的时间,为你讲述:在网络科学诞生的初期,科学家是怎么认识复杂网络的。各种各样的网络具有哪些共同的特点,这对于理解人工智能和大数据有着怎样重要的影响。我们站在今天的角度怎么看待复杂网络的发展变化,和它永恒不变的内核。
《链接》这本书写于21世纪初,那个时候 Windows XP 刚刚发布,而今天的我们已经用上了 Win10,人工智能正在飞速地发展。在这十多年的时间里,科技取得了巨大的进步,其中也包括网络科学。
当时人们对网络的理解,还局限在刚刚兴起的互联网,对各种复杂事物的认知还非常粗浅。很多人以为,不管多么复杂的事物,只要把它尽可能地拆分,把每一部分都研究透了,就能把握住了。整个20世纪,为了研究自然界,人们花了上万亿美元的科研经费,结果却不尽如人意:除了接着往下拆分,人们不知道还能做些什么了。比方说生物学,把所有生物分门别类虽然划分得很清楚,但是依然解释不了,把所有生物放在一起的“自然界”究竟是怎么一回事。我们说,所有生物和自然环境的有机结合,形成了自然界。而这种不停拆分的方法解释不了各个部分之间的有机结合。人们终于承认,我们对于复杂事物的认知还有很严重的欠缺,需要其他理论来加以解释。而这个理论,就是关于复杂网络的理论。因为复杂网络的提出,人们终于摆脱了原有理论的束缚,开始了对复杂事物的真正探索。
为什么我们要重温《链接》这部作品呢?因为它是复杂网络研究的一个起点,不仅扭转了人们过去对复杂事物的研究方向,而且对后来的影响还特别深远。我们站在今天人工智能和大数据时代的背景下审视它,会发现如今很多大家习以为常的观点是那时刚刚建立起来的,对于当时的人具有很强的颠覆性,很多理论在此后一再得到验证,直到今天对我们还有很大的启发。可以说,这本书奠定了人们对复杂网络的认识基础,而网络科学这些年的发展,都和《链接》这本书有着千丝万缕的联系。重温《链接》,就是带你一起回顾网络的发展:它是怎么形成的,它长什么样子,它又是怎么进化的。这本书会教你用网络的视角去看待自然界、人类社会乃至整个世界。
在《链接》这本书里,作者揭示了复杂网络的起源——从随机网络到无尺度网络。复杂性蕴含于万物之间的链接,我们看到在网络中,表面的无序和深层的有序共存。网络普遍具有先发优势、适者生存、健壮和脆弱并存的特点,枢纽节点和层级结构在各种网络中广泛地存在。这些复杂网络的规律,正是我们今天高效利用大数据,进而发展人工智能的一把钥匙。
这本书的作者艾伯特-拉斯洛·巴拉巴西,你可能并没有听说过,但是在当今的科学界,他可以说是一位巨星。科学界里有一个衡量科学家牛不牛的指数,叫H指数。什么意思呢?就是说如果你有50篇论文,每一篇都被别人引用过至少50次,那你的H指数就是50;类似的,如果你有70篇都被人引用过至少70次,H指数就是70。被引用的篇数和次数同步增多,说明这个人论文的影响力越大,他在学术圈的地位就越高。
H指数能比较准确地反映一个科学家的学术成就。我们说几个数字大家就明白了:美国大学里的物理学家想要成为副教授,H指数要达到10到12,正教授要达到18左右。最近20年得过诺贝尔奖的物理学家,他们H指数的平均值是41。我们中国人都很熟悉的霍金,他的H指数是62。而《链接》这本书的作者巴拉巴西,他的H指数是多少呢?达到了惊人的97。他的论文被引用过的总次数,更是有10万次之多。可以说是一位大神级的人物。
《黑天鹅》的作者,纳西姆•塔勒布是这么评价他的:“世界上只有少数几个人,能够一眼洞见经验现实背后的深刻意义,巴拉巴西就是其中之一。”也正因为他在复杂网络研究方面的卓越贡献,他是诺贝尔物理学奖获奖呼声最高的一位候选者。
介绍完这本书的基本情况和作者概况,那么下面,我就来为你详细讲述书中的内容。这本书主要讲述了三个重点内容:第一个重点,是复杂网络的起源,人们对复杂网络的认识从随机网络过渡到无尺度网络模型。链接无处不在,无序和有序共存;第二个重点,是复杂网络的共有特点:包括先发优势、适者生存、健壮性与脆弱性并存,枢纽节点和层级结构在各种网络中广泛地存在;第三个重点,是我们站在今天的角度怎么看待复杂网络的发展变化,和它永恒不变的内核。为什么说复杂网络是树根,大数据是树干,人工智能是树叶?
在过去,人们认为网络都是随机形成的,把这些网络都叫作随机网络。比方说一场酒会有100个人,他们一开始互不相识,是孤立的100个节点,但是当酒会结束的时候,这100人已经形成了一个复杂网络。每个人都会认识几个人,但是从进门到出门,每个人都不知道自己会认识谁,会认识几个人,所有节点之间的链接都是不确定的。这就是一个随机网络的形成过程。作者指出,这种随机网络的形成速度可以非常快,门槛也非常低。在这个例子里,只要每个人认识至少一个人,不出半个小时,这100个人就能全部链接起来。
在现实生活中,我们每个人都认识不止一个人,所以我们之间的链接就更加紧密了。由此产生了一个非常著名的理论,叫作六度分隔。你和这世界上任何一个人之间,最多通过6个人就能搭上关系。即便你想认识美国总统也是如此。用随机网络来解释,如果每个人认识100个人,那么通过6个中间人,我能搭上关系的人理论上有多少呢?1万亿人,是地球人口的140倍。这就是随机网络的力量。可以说,链接无处不在。你从任何一个网页出发,平均只需要19次点击,就能跳转到另外任何一个网页。自然界里也是一样,在食物链网络中,任何两个物种之间的平均间隔只有2个物种。因此六度分隔和类似的现象,在生活中确实非常常见。
在随机网络的基础上,作者进一步提出了“枢纽节点”这一概念和无尺度网络模型。什么是枢纽节点?就是在一个网络中比其他节点拥有更多链接的节点,在人类社会中,枢纽节点就是那些社交面非常广、朋友非常多的人。
现实生活中的网络不是像随机网络那样均匀分布的:比如一场酒会下来,有的人新认识了百八十人,有的人只认识了两三个人。再比如有些善于交际的人,微信好友有几千人,有些爷爷奶奶的微信好友只有家里的几口人。一个网络的结构,主要是枢纽节点在支配和起作用。我们人类社会是怎么保持紧密链接的呢?靠的就是枢纽节点联系起不同的社交圈子。“社交圈”指的是一群人关系非常紧密,在整个社交网络中就是一个“小世界”,每个小世界里都有枢纽节点,也就是社交达人。除了圈子里的人,他们还认识很多圈外的人。这样圈内人通过他们就间接认识了很多圈外人,从而划分出了强关系和弱关系。同一个圈子里的人,他们的关系非常紧密,就是强关系。而从枢纽节点向其他圈子伸出去的橄榄枝,就是弱关系。整个社交网络就像切开的几大块藕,每个社交圈都是一块藕,每一块藕的内部都是强关系,而藕块之间连着的丝就是弱关系。
在这样一个网络里,节点之间的重要性差别巨大,服从二八定律,也就是20%的成员占据了80%的资源。如果一个网络的所有节点的重要性都服从二八定律,有少量的枢纽节点非常重要,大量的节点没有那么重要,我们就叫它无尺度网络。所谓无尺度,指的是我们没法用同样的尺度、同一个标准去衡量这些节点。
可不要小看这个发现。无尺度网络的提出,颠覆了人们长期以来对复杂网络的认识。过去人们以为复杂网络都是随机网络,忽视了枢纽节点的巨大力量。事实上,所有网络中都必然存在这种两极分化,均匀的、完全随机的节点分布是不存在的。从随机网络到无尺度网络,我们看到人们对复杂网络的认识加深了一步,如果说随机网络是无序的、杂乱无章的,那么无尺度网络就是无序和有序并存的。表面上看,每个节点都散乱地链接着其他节点,但是一旦抓住枢纽节点,整个网络的结构就变得清晰起来,无序之中浮现出了有序。
上面为你讲述的就是第一个重点内容:复杂网络的起源,从随机网络到无尺度网络,链接无处不在,无序和有序共存。说完这个,咱们接下来说说复杂网络的共有特点。特点主要有三个,分别是先发优势、适者生存和健壮性与脆弱性并存。
在复杂网络中,先发优势是一个非常明显的特点,网络中越早产生的节点越容易成为枢纽节点。因为一个网络在一开始的时候,节点数量不多,后来产生的节点,总是倾向于链接网络中已有的节点,这样最早的一批节点自然就能获得最多的链接。举个例子,在微信公众号这样一个复杂网络中,节点的数量已经超过了2000万个,很多人都在羡慕那些做得早的公号,它们中很多都成为了阅读量保持在10万+的大号。这就是因为在这个网络中,不管是后来的公号,还是后来关注公号的用户,都愿意靠近那些已经存在于网络中的重要节点。换句话说,公号做得早,内容积累多,自然比一个新注册的公号更容易吸粉,更容易得到其他公号的转载,这个做得早的公号自然就更容易成为枢纽节点,成为大号。而公号越长越大,它扩散出去的影响力也就越大,就更容易吸粉,这就像滚雪球一样,成了一种先发优势。
但是,后来进入网络的节点并不是没有机会,复杂网络的另一个共同特点就是适者生存。举个例子,有一个公众号,很多女性朋友都爱看,叫咪蒙。它起步很晚,2016年年初才开始更新,短短一年的时间里,粉丝数从0涨到了800万,平均每天涨2万多粉。很多人说公号已经杀成红海,没机会了,但是咪蒙在公众号这样一个无尺度网络中成为新的枢纽节点。因为它竞争力更强,适应度更高,能获得的链接当然就会更多。一个公众号如果文章写得多、写得好,能够引起更多人的共鸣和分享欲,即便一开始粉丝很少,也能通过在朋友圈得到的大量分享迅速涨粉,成为无尺度网络中的枢纽节点。这就是所有复杂网络中共有的第二个特点:适者生存,优胜劣汰。
复杂网络还有一个非常重要的特点,就是它既健壮又脆弱。这是怎么回事呢?健壮,是因为除了枢纽节点以外的其他节点对整个网络来说都是次要的,砍掉这种节点,不会影响整个网络的连通。就像一只壁虎,你砍掉了它的尾巴,并不会要了它的命,甚至过一阵子还会再生一条尾巴出来。因为尾巴不是壁虎身体网络中的枢纽节点,它身体上其他节点的联系还是完好的,枢纽节点会继续输送养料,保持整个网络的连通,这就是无尺度网络的健壮性所在。那为什么又说它脆弱呢?是因为一旦枢纽节点被破坏,网络的结构就会发生重大变化。甚至会出现整体性的故障。就像你戳中了壁虎的心脏,壁虎很快就会死亡。因为心脏是它的枢纽节点,一旦被破坏,整个系统就会迅速崩塌。即便身体的其他部分都完好无损,也无济于事。这就是无尺度网络的脆弱性所在。
上面为你讲述的就是本书的第二个重点:复杂网络的共有特点——先发优势、适者生存、健壮性与脆弱性并存。接下来,为你说说最后一个重点:我们站在今天的角度怎么看待复杂网络的发展变化,和它永恒不变的内核。
如果我们把科学发展的过程倒过来看,把蓬勃发展的人工智能比作繁茂的枝叶,那么大数据的精准分析就是为枝叶输送养料的树干,而对复杂网络的深刻洞察就是最底层,也最基础的树根。没有树根,上面的枝叶和树干都是空谈。
传统的人工智能依赖科学家给它输入的各种规则模型,只能解决一些规则清楚的问题。但是今天的人工智能已经能自己解决一些模糊的、规则不明确的问题了。能做到这一点,是因为支撑它的是能够进行深度学习的神经网络。这种神经网络的特点是,它像宝塔一样,有很多层结构,每一层神经网络都有很多个关键的节点,它们接收上一层处理完的数据结果,共同解决一个问题,把自己这一层的输出结果传递到下一层去做进一步的处理。现在最流行的深度神经网络分为两种:一种是处理空间分布数据的卷积神经网络,另一种是处理时间分布数据的循环神经网络。它们的结构特点,都与无尺度网络有着密不可分的关系。
卷积神经网络可以用来做图片识别,它对图片的分析方法和我们分析无尺度网络一样,都是抓住枢纽节点。比方说现在有100万张猫和狗的图片混在一起,要挑出其中2张10厘米见方的照片,一张是黑猫,一张是黑狗,都是白色的背景。怎么挑呢?我们把一张照片看作一个网络,它的每个像素都是一个节点。如果按随机网络的分析方法,你是抓不出主次来的,可能对着白色的像素分析了半天却一无所获。而如果按照无尺度网络的分析方法,就会非常清楚。比方说,我们可以让计算机用一个3×3的框,去框住这张照片的局部,一块一块去分析,如果框住了白色的背景就去掉,不做分析,如果框住黑猫黑狗的躯干部分,发现同样区分不出来,那也把它去掉,最后发现,两张照片区别最大的是猫脸和狗脸。抓住脸的不同就是抓住了像素网络中的枢纽节点,这是第一层神经网络要处理的问题。
接下来,第二层神经网络要做什么呢?对这100万张脸的分析本身也很复杂,需要把所有猫脸和所有狗脸分开,这第二层神经网络就是把脸部的所有像素当做一个无尺度网络,抓住其中的枢纽节点进行分析,比如眼睛、鼻子、嘴巴、耳朵,做进一步的刻画和区分。第三层神经网络,就是对这些器官的特点再往下细分,直到最后一层神经网络对单个像素进行分析。整个神经网络就是把区别猫和狗的任务拆解成许多任务,一层一层处理,抓住枢纽节点,刻画重要特征。
这个过程还体现出无尺度网络适者生存、优胜劣汰的特点。人工智能并不知道,自己每一层分析的是什么,比如它不知道这一层分析的是猫的眼睛还是耳朵,但是它知道,如果这一层分析的这个东西,比方说瞳孔的粗细,经过大量照片数据的训练,能显著地把两种动物分开,成功率超过80%,那么判断瞳孔粗细的这个枢纽节点就会得到加权,得到进一步壮大,它在整个网络中的地位就会提高。相反,假如发现对胡须的像素分析不好用,经常会把猫和狗分错,那么这条通路就会被降权,这个节点的重要性就会下降。整个神经网络在上百万张照片的训练中不断进行这样的自我调整,各个节点的重要性发生动态变化,最后形成一个识别率最高的神经网络。这个深度学习的过程,就是一个无尺度网络中适者生存、不适者被淘汰的过程。
还有另外一种深度神经网络,叫循环神经网络,它和无尺度网络的关系也是通过枢纽节点来体现的。这两年有一个名词特别火,叫“神经网络翻译”,像谷歌、百度、有道这些公司,都说自家的翻译软件用的是神经网络翻译,质量堪比人工翻译。这项技术的背后,就是循环神经网络在起作用。过去的机器翻译,是把一句话里的字词做切分,比方说“我吃饭了”这一句话,切分成“我”“吃饭”“了”,然后把这3个部分逐个翻译,再按英文的语序重新组合。这样的翻译就像对待随机网络一样,把每个部分的重要性都看成是一样的,把它们翻译完了拼凑起来,非常生硬,而且出错的概率很大。比方说:“小明从前门走过来了。”机器在切分这句话的时候就会出问题,到底是把“从前”切分出来作为一个词翻译呢,还是把“前门”作为一个词翻译呢?机器不知道,很可能翻译出来的意思就是:小明、从前、门走过来了。
但是应用循环神经网络的翻译就不会出现这样的错误,它会把一整句话看成表达完整意思的网络,进行整体分析。它在翻译“小明”两个字的时候,不是孤立地分析,而是把“小明”看作一个枢纽节点,赋予很高的权重,同时关联后文,比如“从前门走”这四个字里,最重要的是动词“走”,那就提高它的权重,看作第二个枢纽节点,那么“从前门”就是一个意思整体。接下来,按顺序分析“从”这个字的时候,注意到“小明”和后面的“走”都是和“从”进行搭配的,提高它们的权重,那“前门”作为一个方位名词和“从”的搭配关系就非常明确了。
这样在翻译每个字词的时候,都在语料库的大数据中捕捉前后文里面和这个字词搭配关系最紧密的字词,赋予它们更高的权重,相当于抓住了一个枢纽节点周围的枢纽节点,就可以清晰地看到剩下的字词只是次要的节点,在整句话里起到修饰和补充的作用,就不会出现“从前”和“前门”分不清楚的问题了。事实证明这样的神经网络翻译,经过多种语言的测试,错误率比原来的机器翻译降低了55%到85%。
从图片识别和神经网络翻译这两个例子我们可以看到,人工智能背后的深度神经网络和无尺度网络有着非常紧密的关系。虽然这些年网络科学的发展日新月异,但是我们看到,最前沿的科技中同样渗透着无尺度网络,这个网络模型已经成为今天的科学家用来搭建复杂网络、分析复杂网络的一个基础设施。复杂网络纵有千姿百态,无尺度都是它不变的内核。对无尺度网络的深刻洞察和广泛应用,再加上海量的大数据对网络节点进行不断地训练和调整,才有深度神经网络和人工智能的存在。所以我们说,复杂网络是树根,大数据是树干,人工智能是树枝树叶。我们既要看到繁茂的枝叶和粗壮的树干,也要看到树根奠定了它们赖以生长的基础。
说到这儿,今天的内容就聊得差不多了,下面,来简单回顾一下今天为你分享的内容。
首先,我们说到了,复杂网络的起源。在网络科学诞生的初期,人们认为所有网络都是随机网络,所有节点的链接都是随机形成的。由此产生了六度分隔,任何两个人想要搭上关系,中间人的数量不会超过6个。可以说,链接无处不在。之后,作者提出了无尺度网络模型,在任何一个网络中必然存在枢纽节点,它们是网络中获得最多链接的节点,使得网络中节点的分布不再是均匀的、随机的,而是少量枢纽节点非常重要,所有节点的重要性符合二八分布,网络因此体现出无尺度的特点,从随机网络的无序过渡到无尺度网络中无序和有序的共存。
其次,我们说到了复杂网络的3个特征:先发优势、适者生存、健壮性和脆弱性并存。先发优势指的是,复杂网络中最早生成的节点,它们最有可能获取到大量的链接,成为枢纽节点。适者生存指的是,那些竞争性更强、适应度更高的节点,也有可能后来居上,成为枢纽节点。健壮性和脆弱性并存,指的是由于网络具有无尺度的特点,当枢纽节点遭到破坏,网络可能会陷入整体性的故障,甚至崩塌,体现出脆弱性;而其他节点遭到破坏,不会影响整个网络的结构,从而表现出无尺度网络的健壮性。
最后,我们说到了,无尺度网络模型在今天依然具有重要的意义,不管复杂网络的形态如何变化,无尺度作为复杂网络的内核都是不变的。站在今天大数据和人工智能时代的背景下,无尺度网络体现出重要的奠基性作用,用于图片识别、文字翻译的深度神经网络,其复杂结构都源自于无尺度网络。无尺度网络可以说是大数据和人工智能的树根。
撰稿:刘家琦 脑图:摩西 转述:成亚