PC端下载
安卓端下载 安卓端下载
ios下载 ios下载
返回顶部
智能的本质:人工智能与人类智能[人工智能]
  • 发表时间:2024/3/14 11:38:05
  • 阅读量:

  迭代版本:271,约3.3万字 计算机为何能够表现出智能?计算机智能与人类智能有何异同与联系?当我们说到智能的时候,其内涵是指什么?人工智能是否可以模拟出人类智能?智能的本质到底又是什么?

  本文,首先将会从算力、逻辑、结构、数据、概率等诸多层面,深入浅出地揭示智能的来源与运作,然后会结合生物演化与物理规律,给出一个从宏观到微观的洞见,很好地解释了智能的本质,最后还会从几个不同的层面,去看待智能与我们、及演化之间的关系。

  相信本文的观点和视角,将会让我们更加清晰地理解智能,以及更加深入地理解我们自身的智能。

  主题目录如下:

  智能与算力智能与逻辑智能与结构智能与数据智能与概率智能的本质不同的视角智能的涌现结语后记1:智能的定义后记2:通用智能的产生后记3:图灵测试后记4:连接与规模缩放后记5:智能的范式转移后记6:超越理论的不完全理解后记7:量子力学、机器学习与人类智能后记8:智能的隐秘之地后记9:智能与算法、函数、模型后记10:可构造的理解力与创造力智能与算力算力,并不是产生智能的本质原因所在。

  人脑的算力有限,却可以进行逻辑推理和自主学习,而目前计算机的算力,已经远远超过了人脑“无数”倍,却依然无法进行类似人脑的逻辑推理和自主学习。

  而在另一方面,虽然人类中的少数天才,相较于普通人,拥有极其强悍的心算记忆能力,但如果和计算机的计算存储能力相比,少数天才也必然是望尘莫及的。

  那么在人类之间,虽然每个人的智能存在个体差异性,但显然我们并不会,只使用计算能力这个单一指标,来衡量一个人的智能高低。

  因为,虽然高智能,会表现出高算力(如冯诺依曼、拉马努金),但也有很多其它情况,例如:

  算力正常,表现出高智能(如政治家和艺术家),智能正常,表现出高算力(如计算相关从业者),智能偏低,表现出高算力(如异常基因携带者)。可见,智能与算力有相关性,但绝不是计算能力产生了人类智能,或是计算能力的高低,决定了人类智能的高低。

  不过,有趣的是:

  在很多场景下,计算机不仅可以表现出智能,甚至可以显得比人类更有智能,而在另外一些场景,对于人类智能轻而易举的任务(如说谎、幽默、暗讽、隐喻、道德判断等),但对计算机来说,却是异常困难。

  换言之,计算机的智能表现,体现出了一个“智能悖论”,即:(对人类)困难的问题是简单的,(对人类)简单的问题是困难的。

  这是为什么呢?

  对此,我们需要从两个角度来看:首先为什么计算机会表现出智能,其次是计算机智能与人类智能有什么区别。

  不过这两个视角,最终可能会指向同一个问题,即:智能的本质是什么?

  智能与逻辑虽然计算机,不能够进行逻辑推理和自主学习,但却可以进行逻辑运算(又称布尔运算)。

  其基本原理就在于:计算机通过逻辑门,来进行逻辑运算,从而就拥有了映射逻辑关系的能力。

  所谓逻辑门,就是一组基本的逻辑运算,包括了:

  0——是假。1——是真。非——真假互换。与——有一个假就是假。或——有一个真就是真。异或——有异为真,有同为假,类似连连看找到不同为真,否则为假。大于、等于、小于、大于等于、小于等于、不等于——成立为真,否则为假。比特位的加法就会用到——异或,如:1 + 0 = 1,0 + 0 = 0,1 + 1 = 0进位1。以上就是最基本的逻辑门计算,通过组合它们,就可以实现任意复杂度的逻辑运算,而组合它们的方式,就是逻辑电路。

  所谓逻辑电路,简单来说就是指完成逻辑运算的电路。具体一些,就是指一种以二进制(0和1)为基础,来实现(离散)数字信号逻辑运算的电路。

  那么,在物理现实中,逻辑门由晶体管实现,逻辑电路由集成电路实现。

  其基本原理就在于:晶体管可以(通过物理元件的属性)实现开关控制,使得通过它们的电平信号,产生或高或低的结果,以此来代表逻辑上的“真”与“假”(即二进制当中的1和0),从而实现逻辑门的计算,进而集成电路就可以组合晶体管,实现任意复杂的逻辑电路。

  电平——是指在电路中,不同点在相同阻抗下,电量相对比值的对数,其中电量可以是电功率、电压、电流。可以理解成“水平”,有一个稳定水平,高于的是高电平,低于的是低电平。于是,计算机通过晶体管和集成电路,就拥有了逻辑关系的映射能力——这可以看成是,把抽象的逻辑关系,转换到了物理的逻辑电路上。

  其处理过程就是:接收数据、分析数据(利用逻辑关系)、得出结果,也就是经典的“输入-处理-输出”模型。

  需要指出的是,逻辑电路不仅可以分析数据,还可以通过执行逻辑来进行数据的存取,包括指令、地址、程序等等。

  例如,通过组合逻辑门构造一个锁存器(Latch)——它可以保持一个比特位的数值(即0或1)不变,也可以让一个比特位的数值改变——而组合锁存器就可以构造寄存器或内存(RAM)——所以,内存也有运行频率,这是控制逻辑门的速度,即时钟速度(Clock Speed)。

  事实上,计算机的算力,就是来自于数百亿的晶体管,进行超高速控制逻辑门的结果,显然物理电路的物理属性,决定了高算力的必然。

  那么相比计算机,人脑的算力“弱鸡”,是因为逻辑判断的速度不够快,其根本原因在于:

  生物电路控制逻辑门的速度,远远不如物理电路,这可以理解为——电化学反应的速度落后于电物理反应,即:脑细胞构建的逻辑门结构(电突触与化学突触),其反应速度远不如物理元件构建的逻辑门结构。

  具体来说,有三个方面:

  第一,神经元放电依赖(钠钾钙)离子通道的开闭,这个过程速度缓慢,导致其放电频率大约只有每秒400次,而计算机物理元件的放电频率可高达每秒40亿次。第二,神经元的导电性差、绝缘性差、又容易漏电,所以电信号传递速度缓慢,大约只有每秒100米,而计算机设备的电信号,其传递速度可以接近光速,达到每秒3亿米。第三,神经元之间的信息传递,依赖化学突触,但电位差抵达化学突触,并不一定就会激发神经递质的释放(因素众多、机制复杂),其平均释放概率只有30%左右,而计算机结构的数据传递是100%确定的。但重要的是,逻辑推理与逻辑判断的速度无关,只与结构和数据有关。

  也就是说,逻辑门计算的快慢,并不影响逻辑推理的过程和结果,这个过程——就是数据经过逻辑门结构时的逻辑运算,这个结果——就是经过计算后的数据。

  对应地来看:

  计算机的结构——就是物理硬件结构,人脑的结构——就是神经网络结构,这两种结构均实现了逻辑门计算;前者的计算数据——是物理电信号,后者的计算数据——是生物电信号,这两种电信号均转化自环境数据与信息的输入;前者的输入数据——是来自物理设备(如键盘鼠标传感器),后者的输入信息——是来自生物设备(如眼睛鼻子耳朵)。需要指出的是,能被人脑处理的数据,就是信息,不能被处理的数据,就是无法感知,所以对人脑来说——环境数据就是环境信息,输入数据就是输入信息。

  那么,人脑的逻辑门计算,在宏观上就是使用“如果怎么样,就怎么样,否则怎么样”的条件判断——这个“如果”的真假,就是进行“与、或、非”等等的逻辑运算(可任意组合),那么在微观上就是——从输入信息、到脑细胞激活、到电化学反应、到兴奋电位(代表1)或抑制电位(代表0)。

  而脑细胞的连接方式——多个胞体的轴突(输出信息),可以连接到一个胞体的多个树突(接收信息)——就可以形成各种“神经逻辑门”,与物理逻辑门的原理一致,即:多个轴突的输入信息组合(抑制与兴奋的叠加),抵达某个阈值,才能激活某个胞体的信息处理及传递。

  例如,人脑的视觉系统,并不处理光点信息,而是处理光几何信息(如各种角度的长条、长方形等),其实现方式就是:多个感知光点的视觉细胞(轴突),连接到同一个脑细胞(树突),当这些“光点细胞”同时输入信息时(即感知到多个光点),对应脑细胞才有反应,而这些“光点细胞”的排列形状,就是视觉系统可以处理的光几何形状。

  需要指出的是,数学运算 = 逻辑运算 + 读写操作——而读写并没有逻辑(只有运动),如果没有逻辑运算,就会是没有逻辑的(大概率错误的)读写。

  例如,实现二进制加法的抽象过程是:读取数字,比较数字(逻辑运算)——如果是0,写入1,即完成了加法计算——如果是1,写入0,移动高位,写入1,即完成了进位计算——而有了加法基础,就可以实现其它的数学运算。

  可见,计算机可以同人脑一样,进行无差别的逻辑门计算,其底层支撑在于:如果说“0是关1是开”,那么计算机(CPU)与人脑,就都可以抽象地看成是一个复杂的——“开关网络”(Switching Network)。

  这个开关网络,即是逻辑门计算的物理模型(物理模型体现结构,数学模型体现关系),它可以由不同的介质来承载实现——这正是让计算机可以表现出智能的根本原因所在。

  而计算机智能明显受制于人类智能的原因,就在于:

  第一,逻辑推理中的数据,计算机需要依赖人类提供输入。第二,数据中的逻辑关系,计算机需要依赖人类分析描述。第三,逻辑门计算的过程,计算机需要依赖人类编程控制。那么,计算机可以抛弃人类的帮助,自行分析数据中的逻辑关系,并自动控制逻辑门计算的过程吗?

  换言之,计算机可以在逻辑门计算之上,构建出类似人类智能的智能吗?再换言之,人类智能在逻辑门计算之上,所具有的根本性的“质变”是什么呢?

  智能与结构如前所述,逻辑推理取决于逻辑门结构与数据,算力只是逻辑门结构的特性,推理过程是逻辑门结构对数据的计算,推理结果是计算后的数据——其与计算前的数据具有逻辑关系。

  而计算机虽然拥有逻辑门结构,但推理过程需要人类智能提供——数据与算法,其中算法负责控制逻辑门结构,去完成对数据的计算,并得到结果。

  具体来说,算法由程序描述,程序被转化成指令,指令被硬件(逻辑门结构)执行,这就实现了数据的逻辑运算,而人类智能通过编程,就可以控制计算机完成逻辑推理。

  当然,算法(Algorithm)可以是一个更抽象的概念(与计算机无关),即是指解决问题的完整描述,由一系列准确可执行的步骤组成,其代表着解决问题的策略。

  在此我们会发现,人类智能可以构造算法,但计算机却不行,而算法才是逻辑推理的关键,那么这其中的奥秘是什么呢?

  答案就是,结构——事实上,人脑的结构是逻辑门结构的超集,在此基础之上,相比计算机物理硬件结构的简单固定,人脑结构具有极大的复杂性和极强的可塑性。

  对于复杂性,计算机的存储结构、传输结构与计算结构是独立分离的,但人脑神经网络结构,既是存储结构,也是计算结构,甚至还是传输结构。

  因此,数据与算法,会存在于同一个脑结构之中。

  具体来说,就是神经元细胞之间的几何关系、密度、数量,膜内外的成分、浓度、电位,以及电化学反应的过程,等等——都是一种信息的记录和计算,从而信息的形成、传递与处理就是共用神经元细胞的,于是信息在脑结构中,自然就会相互关联与影响。

  换言之,环境信息被人脑捕获之后,其“运动”的某种模式——如带电离子的流动、神经递质的扩散——就对应了算法,而这种物理意义上的“运动算法”,是意识运作的底层,不受意识的控制,其结果就包含了直觉与潜意识,而直觉可以看成是潜意识的计算。

  这里需要指出的是,信息与数据之间的关系,即:信息是从数据中提取的关系,同样的数据看到不同的关系,就是不同的理解,就会有不同的信息,可见信息是数据的简化抽象,即过滤了很多不同维度的关系——类比来看“数据-信息”就像“质量-能量”。

  那么显然,计算机结构并没有“运动”的特性,也没有数据存储处理“一体化”的特性,相反计算机的数据,是独立于其结构的——结构的改变(如规模、架构)不会影响数据,数据的改变(如数量、关联)不会影响结构——所以,计算机的数据可以无损复制到另一台计算机上,但人脑的信息就无法复制,除非重建相同的脑结构。

  最为关键的是,计算机的结构无法产生算法,也就是无法从数据中提取逻辑关系,也就是无法从数据中提取信息,因此计算机要求输入数据“自带信息”——这是如何做到的呢?

  首先,需要数据结构,它是一种描述数据关系的结构化数据,即关于数据的数据,称之为元数据。其次,需要代码算法,它是一种可执行的数据,用于控制硬件结构完成计算,包括逻辑运算和读写操作,这两者可以实现数学运算。最后,代码算法的执行,将会把数据映射到数据结构,从而实现数据中逻辑关系的提取,也就是信息的提取。由此可见,计算机要求输入数据(含有数据结构和代码算法),既要有逻辑关系,也要有逻辑处理,而这些都被转移到了由人类智能来提供。

  对于可塑性,输入信息可以改变人脑神经网络结构本身(包括生物逻辑门),从而改变对输入信息的获取和处理,于是结构和信息之间就形成了“结构吸收信息,信息塑造结构”的相互作用,这就如同——河床(是结构)约束引导河流(信息),河流(是信息)冲刷塑造河床(结构)。

  事实上,抽象地来看,逻辑即是结构所固有的关系,不同的结构(或同样结构不同角度)有不同的关系就有不同的逻辑,而结构的改变即是逻辑的改变。

  例如,人在梦境中的想法逻辑,会与清醒时有很大的不同,这就是因为人脑神经网络在睡眠时的激活结构不同,这种结构的不同,就会产生不同的想法逻辑。

  因此,人脑可以捕获环境信息,接着分析学习其中的逻辑关系,然后(将逻辑)存储进动态的人脑神经网络(结构)中(比如经验与常识),并参与后续(环境信息)的逻辑处理,这即是自主学习的能力。

  可见,大脑的可塑性表明——大脑的结构决定了大脑的功能,即:无差别的单元,构建有差别的结构,形成不同的功能。

  那么对比人脑,计算机的结构固定,完全没有动态性和自组织性,转而只能依赖人类智能提供——数据结构与算法(数据结构 + 算法 = 程序),于是计算机智能也就无法进行——自主学习与自主推理了。

  简而言之,人类智能是因为人脑的结构非常复杂,而计算机的结构如此简单,其“智能表现”是把复杂算法都转移到了程序设计之上,也就是让人类智能来思考产生。

  综上可见,我们“自诩”的智能,其实就是来自于——复杂结构的动态性与自组织性,其功能就在于——从环境信息中建模映射真实世界的逻辑关系,继而可以准确地预测未来。

  当然,人脑结构中存储的都是——简化模型,而对这些颅内模型的计算与建模,就是由智能所主导的——认知计算与认知建模。

  有趣的是,人脑的认知模型不仅简化,其认知模式还偏好简化,但它(模型和模式)可以复杂——这是一种演化冗余的结果。

  而通俗地说,人脑结构——决定了晶体智力(取决于学习,如技能和技艺,不受衰老影响),神经运作——决定了流体智力(取决于基因,如记忆力和算力,随衰老减退),智能——则建立在晶体智力与流体智力之上。

  那么,计算机智能有没有办法,突破固定结构的局限性,从不同的演化路径去“模拟”出人类智能呢?

  智能与数据如前所述,能够创造出算法是智能的关键所在,而在编程领域,著名程序员、开源软件运动的思想家、黑客文化的理论家——埃里克·雷蒙德(Eric Raymond),在《Unix编程艺术》中,有这样一个实践性的洞见——算法和数据结构有一个关系,即:

  数据结构越复杂(如哈希表),算法就可以越简单,数据结构越简单(如数组),那么算法就需要越复杂。

  例如,编程语言越是动态化(如Python、JS、Lua),就越容易构建复杂结构,用其编写算法也就越容易,相反编程语言越是静态化(如C、C++、Java),就越难以构建复杂结构,用其编写算法就困难,而编程语言的演化是越来越动态化(如C#)。

  其原理就在于,算法实现——是逻辑关系的“计算映射”,即动态地进行逻辑关系的转化;数据结构——是逻辑关系的“固化映射”,即将已经计算好的逻辑关系,存储在了结构之中。

  可见,算法比数据结构多出了计算的过程——前者需要根据逻辑关系进行逻辑运算,后者仅需要根据结构的逻辑关系直接读写——所以应用数据结构进行逻辑关系的转化,会更加高效。

  而人脑可以从环境信息中,提取数据结构并习得算法,最终将两者存储到脑结构之中——可见,“神经结构、数据结构、算法”三者之间可以互相转化,或说互相表征。

  表征——是指用信息描述某一事物的状态,即:信息符号可以代替某一事物本身。换言之,如果数据结构足够强大,它就可以充当复杂算法的功能,甚至可以替代复杂的神经结构。

  因此,计算机智能“拟人”(即模拟人脑)的一个途径,就是通过强化数据结构来模拟神经结构,以及弱化人类智能所提供的代码算法,转而使用结构去生成算法,而这就是目前人工智能的发展方向——以下使用“人工智能”来替代“计算机智能”。

  顺便一提的是,在现实中,一个东西的结构越复杂,它的功能就越丰富,可以说结构决定了功能,更或者说结构就是功能,而功能来自于算法的执行——所以,结构转化为功能,就意味着结构蕴含了算法。

  那么,问题就回到了,人工智能的数据结构从何而来呢?

  显然,“人工”二字已经说明,依然由人类智能来提供,只不过这不是一个针对具体问题的数据结构,而是一个模拟人脑神经网络的通用数据结构——它是对人脑结构的简化抽象,并由程序语言编程实现的数学模型(以矩阵为基础,想象黑客帝国的母体),可称之为“类脑数据结构”,更形象的描述是“类脑神经网络”。

  接下来,人类智能继续提供一种算法——机器学习算法(如深度学习、强化学习等等,每种又有不同的具体实现),这种算法可以通过拟合与计算,试图在海量的大数据中找到各种各样的算法——从而把特定的输入问题与输出结果对应起来——这相当于实现了一种可以创造算法的“算法”。

  大数据——是指拥有多维度信息的大量数据,也就是说,不仅数据量大,信息量也大,而“大量数据”,仅仅是数据量大,信息量却不大,甚至可能很少。概括来看,大数据有4个明显的特征,即:数据量大、多维度、完备性、和实时性。薄数据——是大数据中,那些可量化、可测量,但未必重要的数据。厚数据——是大数据中,那些不可量化、不可测量,但重要的数据。而将类脑数据结构与机器学习算法结合起来,就可以动态地自组织类脑数据结构(通过结构连接关系的权重),以存储算法创造的算法——于是人工智能就表现出了自主学习与自主推理。

  有趣的是,有一种机器学习算法(强化学习,Reinforcement Learning)与人脑多巴胺强化学习的机制是相一致的,即:

  概率来自权重(即历史权重决定了算法的概率计算),权重来自奖励,奖励来自行为,行为来自决策,决策来自奖励,奖励来自概率(即现实概率决定了奖励的最终获取)——这说明机器可以使用人脑相同的学习机制进行“自我学习”。

  那么,这里算法习得的权重(也称权值),其实就相当于人脑神经元之间的连接强度,通过数据反复地训练与调整,无论是机器还是人脑,最终都可以把输出结果逼近正确答案。

  而这个过程,可以完全用数学描述,就如图灵奖得主、卷积神经网络之父——杨立昆(Yann LeCun),在《科学之路》中,所说:

  “所谓的机器学习,就是机器进行尝试、犯错和自我调整的操作。学习就是逐步减少系统误差的过程。训练机器的过程就是调整参数的过程。……基于成本函数最小化的学习,是人工智能运作的关键要素。通过调整系统参数来降低成本函数,也就是降低实际输出与期望输出之间的平均误差。实际上,最小化成本函数和训练系统是一回事。”

  成本函数(Cost Function)——也称为“代价函数”或“损失函数”(Loss Function),那么显然令“成本、代价、损失”的函数最小化,就是学习的过程,也是学习的目的所在。换言之,杨立昆指出:

  “(人工智能)神经网络的连接体系结构,即各层神经元的组织、以及神经元之间的连接,是确定的。但是权重,即加权和的参数是不确定的,它们可以通过学习来确定。”

  事实上,早在1950年,图灵就阐述了类似这样的想法,著名传记作家——沃尔特·艾萨克森(Walter Isaacson),在《创新者》中指出:

  为了反驳“洛夫莱斯夫人的异议”,即埃达·洛夫莱斯认为分析机无法像人脑一样工作,图灵在论文中提出了一个极具独创性的观点,即:

  “机器也许可以进行学习,从而逐渐发展出自己的主动性,并掌握产生新想法的能力。……图灵提出了一种奖励和惩罚机制,它可以促使机器重复或者避免某些行为,最终这台机器将会培养出自己对于思考的概念。”

  由上可见,人工智能是在通过“输入数据、数据结构、学习算法”之间的相互转化,来形成“类人智能”的——也就是从数据中找到结构,再从结构中产生算法,最后将算法存入结构。

  值得一提的是,实践表明,人工智能模型可以通过数据训练,获得非常精准的预测能力,但这种预测能力不具有可解释性,即无法解释预测结果的形成路径。

  换言之,类脑数据结构(或说类脑神经网络)是一个——“黑盒模型”,如同人脑一样。

  那么,从此也可以看出,结构涌现智能的规律与力量——就如同化学中结构决定性质,物理中结构决定激发,程序中结构决定功能,语言中结构决定语义,等等——或许结构决定了一切,这被称为“结构主义”。

  例如,杨立昆在《科学之路》中,就指出:

  “人类视觉系统,不仅受过对图像进行分类的训练,而且除了完成特定任务,它还接受过捕捉视觉世界结构的训练,……因此一个孩子不需要成千上万头大象,来学习「大象」的概念,而是只有三头就足够了,甚至在插图中描述出图案都可以。”

  而按此视角,“听不懂”、“不明白”、“搞不清”、“难理解”——其本质都是无法重现相同(或相似)的结构,即脑神经网络结构,如:动物听不懂人话,学渣不明白公式,平民搞不清政治,男人不理解女人。

  换个角度来看,一个人哪怕经验再丰富,与“大数据”相比也只是“小数据”,但“小数据”并不影响人脑具有强大的预测能力——其原因就在于,从有限的数据中获得(或说提取存储)有效有意义的结构,而“结构”可以预测未来。

  那么,如果拥有了足够大的“大数据”,这就像拥有了一张分辨率足够高的“照片”,任意放大“照片”的某个局部,都可以看到足够多的信息与连接,这就有更多的可能性,从这张“照片”里发现某些规律,即结构——这就是人工智能的路径与意义,即连接了数据与结构。

  然而除了数据结构,在类人智能的道路上,仍有一个显著的问题,即是人脑的模糊性与计算机的精确性,它们之间的差异性应该如何解决?

  智能与概率事实上,计算机一直是基于精确逻辑的工作模式,任何微小的逻辑错误,都会在计算积累中不断地被放大,直到逻辑崩塌或程序崩溃,最终导致任务失败。

  人脑的逻辑处理则完全不同,人脑基于“贝叶斯算法”使用概率模型,通过统计的结果来得出可能性,从而创造出各种假设,并随着接收到的新信息而不断调整模型,同时又会根据最新模型连续地计算,不断逼近最真实准确的答案,所以人脑可以忽略不具有规模的异常和错误。

  贝叶斯算法——是根据先验概率,进行概率计算,结合客观信息,调整先验概率,以此迭代循环,从而让后期预测,不断逼近准确的客观现实。通俗地说,就是预测随着新信息而不断改变,或结论随着新证据而不断改变。例如,人脑处理语言,就是概率模型的最佳体现,显然人类语言具有很强的容错性和纠错性——什么语法错误、多意混淆、口音语调、反讽幽默等等,都可以在电光石火之间被人脑大概率的正确处理,这是计算机和编程语言所望尘莫及的,因为编程语言错一个分号,程序就会“满盘皆输”——并且在人类语言之上,人脑还可以支撑精确的推理模型。

  例如,人类婴儿最初学习语言,也是基于概率来实现的,即:通过不同音素的连接概率,来进行语句中字词的分隔判断——显然,在没有字形的情况下,区分字词的方法,就只能记忆音素(即最小发音单元)不同连接组合的可能性。

  而人类智能可以运用的推理,主要有四种:

  第一,演绎推理,又称逻辑推理,由一般到特殊。第二,归纳推理,由特殊到一般。第三,类比推理,由特殊到特殊,可以理解为:抽象的外推,有抽象才有类比,抽象接近本质,本质通用可以外推,通才的“学习迁移”即是运用类比。第四,溯因推理,又称反绎推理(或反向演绎),由特殊到解释,可以理解为:大脑遥远区域的长连接,以及潜意识的计算,即直觉。其中,演绎与归纳,(在数学上)是基于精确逻辑的(在人脑中是相对精确的),类比与溯因,则是基于概率统计的,而推理的根本作用就是——捕获因果,预测未来。

  事实上,直觉、闪念、灵感、顿悟所带来的洞见,往往就是运用类比与溯因的推理结果,其过程看似没有逻辑,实则背后是神经网络“遥远连接”所激发的信息的“自由”排列组合。

  显然,概率会让这种“洞见”,有时是灵光乍现,即蕴含着深刻本质的逻辑,有时则是胡说八道,即类比错误、溯因荒谬。

  类比——是形式不同,但逻辑相同的连接。 溯因——是根据现象,寻找最可能的解释。可见,人类智能在结构与计算之上,必须要引入概率统计的工作模式,才能够展现出其强大的推理预测能力。

  那么,基于精确逻辑的计算机,能够基于概率统计来工作吗?

  深度学习领域的三位专家,在奠基性的经典教材《深度学习》(Deep Learning)中,指出:

  “在人工智能领域,概率论主要有两种用途:首先,概率法则告诉我们,人工智能系统如何推理;其次,可以用概率和统计,从理论上分析人工智能系统的行为。……概率论,使我们能够提出不确定性的声明,以及针对不确定性的情景进行推理;而信息论,则使我们能够量化概率分布中不确定性的总量。”

  是的,从某种角度来看:人工智能 = 计算机 + 概率论 + 信息论 + 大数据,其中概率论就是能够让算法创造算法的机制——就如同人脑中概率模型的运作。

  对此,作者在《深度学习》中,这样说道:

  “学习理论表明,机器学习算法能够在有限个训练集样本中,很好地泛化——这似乎违背一些基本的逻辑原则。通常,归纳推理(即从一组有限的样本中推理出一般性的规则),在逻辑上不是很有效。因为,为了逻辑推理出一个规则去描述集合中的元素,我们必须具有集合中每个元素的信息——这是很难做到的。但在一定程度上,机器学习仅通过概率法则,就可以避免这个问题,而无须使用纯逻辑推理整个确定性的法则。最终,机器学习可以保证找到一个,在所关注的大多数样本上可能正确的规则。”

  那么,应用了概率,就需要接受概率的模糊性与不确定性。

  没有免费午餐定理(No Free Lunch Theorem)已经清楚地表明,没有最优的学习算法,特别是没有最优的正则化形式。

  正则化(Regularization)——是指向模型中加入某些先验的规则(如正则项,或称规则项),以减小模型的求解误差。通俗地说,就是把人类的知识,以数学的形式告诉模型。那么,没有最优正则化形式,意思就是人类的知识,没法用完美的数学形式告诉模型。因此,机器学习研究的目标,不是找一个通用学习算法,或是绝对最好的学习算法,而是理解什么样的概率分布,与人工智能获取数据的“真实世界”有关,以及什么样的学习算法,在我们所关注的数据分布上,效果最好。

  事实上,我们应该彻底放弃,用人类智能去寻找“算法”来“更新”人工智能,而是用人脑源源不断产生的数据,去“喂养”人工智能,然后让它从简单结构开始,向着复杂结构不断地“自我演化”——就像当初的人脑一样。

  例如,历史上的天才,他们对世界的认知和理解,可能还不如今天一个普通人,就是因为天才缺少了当今世界的“数据-信息”——可见,平庸 + 信息 > 天才,机器 + 数据 > 人才。

  那么在应用中,大多数机器学习算法都有“超参数”(Hyperparameter),它是在开始学习过程之前,需要设置值的参数,而不是通过训练,从数据中学习得到的参数,设置它可以控制算法的行为、性能与效果。通常情况下,需要人工对超参数进行优化,即给出一组“最优超参数”,以提高学习的能力与结果。

  换言之,我们应该是设计一个循环嵌套的学习过程,让一个学习算法为另一个学习算法,学习出“最优超参数”,而不是人工提供这个“最优超参数”。

  更为重要的是,机器学习缺少一种内在的驱动力,即是快乐与痛苦,而对生物体来说,一个环境信息的“好坏”,就关联着快乐与痛苦,即是趋利避害的生存。

  例如,人类感到快乐与痛苦时,都会产生强大的内在驱动力(即多巴胺),去让人想要采取行动(包括推理、思考、学习、总结),以最大程度地追逐快乐与减少痛苦——这其实是趋利避害的“本能算法”。

  因此,我们需要让机器“感受”到快乐与痛苦,或说是给机器植入“快乐”与“痛苦”,即想办法给机器编码出——“快乐的奖励”与“痛苦的惩罚”,这样机器学习才能在数据流中,自发地进行学习,自动地推理因果,从而获得自我演化。

  换言之,我们需要将系统内部,划分成多个可以相互施加影响的子系统,并形成监督、奖励与惩罚的反馈回路——要知道,对生物体来说,感受只是一种电化学信号,这对应到机器体上,完全可以等价成一种电数字信号。

  例如,简化来看,一个建模系统、一个预测系统、一个评估系统、一个感受系统:

  预测系统调用建模系统,即模拟已有模型的交互演变,来预测环境与自身的变化,如想象滑倒;评估系统监督预测系统,即对比目标函数与成本函数,来计算目标与成本的误差,如想到摔死;评估系统激活感受系统,即转化预测误差为满意程度,来形成正面与负面的感受,如感到恐高;感受系统驱动行动计划,即感受强度将决定后续行为,来改变环境与自身的模型,如避免登高;可见,感受系统的奖励与惩罚,是来自评估系统所计算出的成本误差,其目的是使预期成本最小化。

  最后可见,正确的预测(或说预测的正确率),取决于信息量(信息可以消除不确定性),而信息来源于数据,没有更多的数据,就是没有更准确的预测,那么在迭代计算中,用结构去捕获数据,进而掌控预测的概率——这就是人工智能与人类智能的“同构演化”,即:具有同构性的两种演化。

  换言之,智能演化的最后一步,必然就是——万事俱备,只欠数据;而智能演化的内在动力,必然就是——成本函数,尽量最小。

  顺便一提,如果我们的世界,是计算机模拟的一个程序,那么这个程序的“最优超参数”——就应该是我们物理学上发现的各种“基本常数”,如:光速、普朗克常数、引力常数等等。

  智能的本质前文讨论了智能的诸多层面,现在我们将从生物演化和物理规律的视角,来解释智能的本质到底是什么。

  首先,从生物演化角度。

  演化压力要求,生物体构建出趋利避害的功能,否则就会被淘汰,那么如何才能趋利避害?——首当其冲的就是,准确地预测利与害。那么如何才能准确地预测利与害?——自然是,通过智能的推理能力(即演绎、归纳、类比、溯因)。

  事实上,基因本来是利用神经元,来控制运动和反射的,其存在的目的仅仅是控制肌肉的运动,所以植物不需要神经元,动物才需要。

  而显然,运动的时机与环境信息密切相关,于是后来神经元就开始对信息进行记忆、识别、分析、预测,最终是模拟(模拟是为了更好的预测)——这个过程,也是从神经元到大脑、到人脑、再到产生智能的演化过程。

  换言之,是环境在促成神经系统对环境信息的模拟和预测,从而逐渐把神经系统演化成了智能系统,所以大脑是由神经元构成的神经网络。

  而最终,基因设定了一套基础规则,即本能,然后就放手让大脑去接管几乎所有的决策与选择行为,即智能。

  由此可见,智能来源于对运动控制的迭代升级——它是根据环境信息制定“运动算法”的算法,或说为了应对环境,智能提高了运动对环境的反应策略——它是(凭借推理能力)对环境信息的理解(即捕获了因果关系)。

  一个有趣的类比是:程序环境中的——数据与行为(行为具体是指函数或方法的实现),对应了自然环境中的——信息和运动。

  所以,OOP(Object Oriented Programming,面向对象编程)把数据与行为“打包”,其实是符合演化模型的,从某种角度说,OOP具有分形递归的特性,即:整体可以由局部递归组合而成,且整体与局部具有自相似性——这让它可以模拟生物体的演化特性。

  而更宏观地看,智能是生物体在演化压力之下,不断升级的必然产物,也是无数次随机试错的偶然产物。

  例如,有个物种,由于基因突变获得了一个演化优势,但在一段时间后,它的”竞争者“也会演化出新的优势,来抵消它的优势,所以演化出比基因突变,更具趋利避害优势的”智能系统“,就是一种被迫”军备竞赛“般的”随机必然“。

  或许有人会说,基因构建的本能,也能够预测未来,动物也可以针对环境信息,做出预测性的行动反馈——但事实上,本能并没有推理,而只是做出有限模式的“套路化”反馈,即:条件反射与应激反应。

  因此,我们可以将智能看成是——通过推理的预测能力,即:推理能力越强,预测能力就越强,智能就越强,反之智能越弱,预测能力就越弱,推理能力也就越弱。

  那么,生物体通过智能最大化趋利避害之后,会怎么样呢?

  当然就是,高效地吃喝、不停地繁衍、长久地生存,最后还会发展出越来越先进的科技——这显然会消耗更多的能量,制造更多的熵增。

  其次,从物理规律角度。

  一个层面,熵增定律要求,局部自组织有序熵减,以推动整体更加的无序熵增,因为维持局部有序,需要注入能量,而消耗能量的过程,会在整体产生更多的无序。

  另一个层面,系统能量足够,就可以保持对称性(无序),能量不足就会对称性破缺(有序),如:水的能量高于冰,水的旋转对称性高于冰,水比冰更对称无序,同理水蒸气比水更对称无序。

  注意,直觉上我们可能会觉得,冰比水更“对称有序”——但事实上并不是这样,因为更高的对称性意味着,在更多的变换下(如旋转变换下)具有不变性,即:对称性增加了保持一切不变的操作,也就是增加了不变性,变得更无序(因为有变化才能区分排序)。

  那么,结合以上两个层面来看:

  熵增会驱使局部有序,维持有序需要注入能量,于是有序就会演化出,越来越高效的耗能系统来获取能量,而拥有足够的能量,就可以保持相关系统(即耗能系统所能够影响的系统)的对称性。

  那么,对称性意味着演化的可选择性,可选择性则可以通过选择权的不对称性,让系统局部从相关系统中受益,进而获得更多的能量,这又会推动局部更加的有序和耗能,最终令系统整体走向不断熵增的(正反馈)演化过程。

  选择权——简单来说,就是具有选择的权利,可以放弃这个权利。可选择性——简单来说,就是具有选择的选项,选项可以是选择权。类比来看:

  局部有序就是——人类身体(包括大脑),耗能系统就是——人类大脑(耗能最高),相关系统就是——生存环境,有对称性就是——具有智能,可选择性就是——表现智能,局部受益就是——趋利避害,综合起来就是——人脑通过智能获得趋利避害,以让人类越来越善于消耗能量,从而顺应宇宙熵增的演化。而对称性破缺产生有序,就是使用智能的过程,也就是行使选择权的过程,具体如下:

  在智能选择之后,系统就会进入不对称模式,此时继续向系统注入能量,系统内部就会开始结构的排列组合和远近连接,并以内部协调的方式产生新结构,从而形成更大的对称性,拥有更大的可选择性,同时也需要更多的能量,才能维持在这个状态,而这个状态就是更强大的智能——或说可以表现出更强大的智能。

  类比来看,使用智能可以使人脑产生新结构,而人脑的可塑性可以协调新结构,使得人脑结构具有更大的对称性,这相当于人脑神经网络拥有更多的最短连接路径,以及更多的发展可选择性(因为对称性带来更多耗能相同的选项),结果在相同耗能下,前者可以激活更多的思路,后者可以应对更多的情况,这即是增强了人类智能。

  而更强的智能,又可以使人脑从生存环境中获得更多的可选择性,这体现在可以看到环境中更多的可选择性(因为识别更多的对称性),以及让环境具有更多的发展可选择性(因为对环境有更多的操作),这即是趋利避害的演化最优解。

  可见,智能的本质,就是通过耗能维持系统对称性的能力。

  那么结合前文,人类智能是人脑结构复杂性的涌现,现在来看会有更进一步的理解,即:结构的复杂性在于——规模性和动态性,前者可以通过能量产生增长,后者可以通过能量产生对称,两者的结合就可以产生——复杂系统的对称性,这即是人类智能。

  而在构建复杂智能的过程中,最为关键的地方在于——新结构是有序,但结构的对称可以产生无序——就像圆形比三角形更加的对称(旋转对称性)、更加的无序、也拥有更多的最短连接路径。

  需要指出的是,结构对称,虽然在系统整体产生了结构无序,但如果这个过程,引入了新结构或剪裁出新结构,就会增加系统内部的结构有序,而这个内部有序往往会超过整体无序——所以系统结构对称,是一个耗能熵减的过程,即:

  系统用小的无序,换取了大的有序,结果内部更有序,整体更有序,外部更无序,环境更无序——就像一个圆球,外部(旋转)对称无序,内部(分子)不对称有序,并且是内部的有序,支撑了外部的无序。

  例如,健身运动,就是给身体造成——小的损伤(即小的无序,增加对称性),再利用过量修复产生——大的强健(即大的有序,增加不对称性),结果身体就会比从前更有序——当然,如果运动过度,也会使得身体更无序。

  例如,内部竞争,就是给公司造成——小的混乱(即小的无序,增加对称性),再利用竞争压力产生——大的创新(即大的有序,增加不对称性),结果公司就会比从前更有序——当然,如果竞争过度,也会使得公司更无序。

  例如,在群体中,有序意味着排位(不对称),无序意味着平等(对称),显然后者更具创造创新力——但前提条件是,群体中的个体需要具有耗能熵减的能力。

  按此理解,“智熵”就是通过智能,提高系统对称无序(系统局部熵减)与环境对称无序(环境整体熵增),最终推动宇宙熵增的编码能力,即:智熵 = 智能 + 熵增。

  而对称性的意义,就在于提供了——可选择性,即:可以利用更多的路径选项,来对抗环境压力的驱使,从而维持自身状态的不变,或向着自身有利状态的改变。

  显然,拥有可选择性,就可以表现出智能——就像有一个开关、多个开关、感应开关、语音开关、自定义开关、可编程开关等等,可选择性越多,就越表现出智能。

  而可选择性的意义,就在于选择权的不对称性,如:能量不对称,我有的选,你没的选;信息不对称,我知道怎么选,你不知道怎么选;等等——这意味着,拥有趋利避害的生存优势。

  例如,如果你的工作可选、生活可选、娱乐可选,你就拥有可选择性,而这些选项可以相互替代(即选谁都一样具有不变性),就形成了对称性(因为对称性的背后就是不变性),但维持这些可选择性让你保有选择权(即不对称的权利),需要你拥有能量,或恰当地使用智能。

  值得指出的是,随机性也可以带来可选择性,如继承与运气——所以随机性可以创造智能,也可以在某个层面超越智能,即:随机试错具有超越迭代试错的概率。

  事实上,任何耗能系统,都可以因为注入能量而保持结构的对称性,从而具有可选择性,进而表现出某种智能,只不过人脑是自然界演化出的,最复杂的耗能系统,所以人类智能是自然界中,最强大的智能。

  例如,宇宙奇点具有对称性(高温无序),接着大爆炸之后,由于空间膨胀(的环境压力),宇宙的对称性破缺(低温有序),然后又向着无序熵增的方向演化——可见宇宙本身,就具有某种智能,它在试图维持自身处在“对称无序具有可选择性”的状态。

  那么归根究底,可选择性带来适应性,这是演化对智能的要求,而对称性(无序)需要注入能量,这是熵增对演化的要求。

  可见,适应性(演化)= 可选择性(表现智能)= 对称性(具有智能)= 有序(信息不对称) + 能量(能量不对称)——信息可以消除不确定性,有序即确定,意味着具有更多的信息。

  而如果没有适应性(或适应性不足),就说明缺少对称性,也就是“有序 + 能量”中的能量不够,此时有序,就会被环境压力分解为“无序 + 能量”,其能量会被用来支撑其它“有序 + 能量”的演化,只剩下无序熵增。

  换言之:

  能量不足——会促使“有序到无序”并释放能量(即淘汰),能量足够——会促使吸收“有序到无序”释放的能量(即留存),结果永远——是“有序到无序”的熵增(即方向)。因此,智能可以看成是,熵增驱动演化的结果,而熵增就可以看成是,演化压力的压力,或说是宇宙演化的“终极压力”。

  最后,更抽象地看——智能只是能量流动中的一种模式,更简单地看——智能只是趋利避害中的一种模式(本能与智能是两种模式),更一般地看——智能就是获得可选择性的能力。

  不同的视角人工智能,虽然来源于对人类智能的模拟,但如果模拟到了演化算法,它就会有自己的发展,并且还会反作用于人类智能本身,比如从机器学习的有效算法,去反思人类学习的神经运作。

  事实上,人工智能与人类智能的智能竞赛,可以倒逼我们找到自身智能奥秘的底层逻辑,因为越高级复杂的智能,其演化路径就越是狭窄的,就像人类眼睛与章鱼眼睛,是独立演化出的两种相似结构,所以人工智能与人类智能,在智能演化的道路上,最终也可能会“殊途同归”。

  那么,从这个角度来看,人工智能目前还不及人类智能的事情,一方面是它的智能演化才刚刚开始,另一方面则是因为人类还不够了解自己,还无法提供人工智能加速演化的关键技术。

  然而,如果仅从复杂结构的“连接性、动态性、随机性”来标度智能,我们会发现整个互联网就像一个人脑。

  其中,互联的计算网络就像是人脑的神经网络,连入网络的每台计算设备,就像是一个神经元细胞——不,其实是每个使用设备的人,才是一个神经元细胞——每个人都在贡献着数据与结构,人与人之间的连接和关系,以及数据交互的动态性和自由意志的随机性,就构成了一个“类脑”的复杂结构。

  换个角度来看,为什么说互联网是我们大脑的延伸,而不是“眼耳手腿”,就是因为互联网连接的是我们大脑。

  这样,整个互联网会演化出自己的智能吗?

  同理类似,一个超大规模的城市,通过其不断变化又极其繁复的交通网络与基础设施,将其中数以千万的“人类神经元”连接起来,进行信息的传递和交换,从而构成了一个“类脑”的复杂结构。

  这样,整个城市会演化出自己的智能吗?

  答案是否定的,即互联网与城市都无法产生智能,其关键原因有两点:

  其一,人类自身的演化,限制了人与人之间的连接——150定律(即邓巴数)表明,人类拥有稳定的社交网络人数大约是150人——而在人脑神经网络中,一个神经元与其它神经元的连接数,平均约有7000个。其二,人脑神经元总数大约有860亿个,而全球人类总数大约只有70多亿。神经元的连接数:Do we have brain to spare神经元的总个数:The human brain in numbers实际中,通过对不同规模的欧洲城市,其居民电话记录的大数据分析,著名理论物理学家、圣塔菲研究所前所长——杰弗里·韦斯特(Geoffrey West),在《规模》中,指出:

  “一个普通个体的熟人模块集聚系数,近似恒定量,不会随着城市规模的变化而改变。”——这可以说是,对150定律的量化验证。

  可见,用“人类神经元”去构建一个“类脑结构”,不考虑别的,仅在标度上就有数量级的差距,而量变显然决定了结构的涌现与质变。

  由此看来,智能不仅在于结构与能量,还在于规模与尺度,也就是关乎于时间与空间——规模取决于结构的存在时间,尺度取决于结构的活动空间。

  智能的涌现人脑,大约有860亿个神经元——其中,大脑皮质大约有140~160亿个,小脑大约550~700亿个。而一个神经元,大约有7000个连接,每个连接位置都有一个突触,每个突触都是一个可调节连接强度的权重,即参数。

  维基百科神经元:成年人约有100~500万亿个突触连接所以,大脑的总参数是860亿 * 7000 = 602万亿,大脑皮质的参数是140~160亿 * 7000 = 98~112万亿——而后者是直接支持人类智能的参数量——也就是说,涌现出“类人智能”的参数规模,是100万亿的数量级。

  但我们知道,人脑的能力,不仅在于其规模,还在于其训练的“信息质量”,即:再有天赋的大脑,如果没有高质量的“输入信息”,也就没有高质量的“输出信息”。

  这意味着,人工智能的模型规模,会存在边际效用递减,即在一定规模之后,必须要有高质量的“大数据”投喂,才能继续提升智能水平。

  那么,人类的神经元数量,为什么没有突破1000亿的数量级呢?

  答案是,没有必要——因为,婴儿的突触(即参数)数量在1000万亿(即10^15)的数量级,而成人则会剪裁到100~500万亿(即10^14)的数量级——可见,成人的参数量(百万亿10^14)比细胞量(千亿10^11)多3个数量级,而婴儿(千万亿10^15)则是多4个数量级——这意味着,面对地球环境,人脑的冗余性,完全够用,甚至(婴儿比成人)还剪裁掉了1个数量级(即10倍)的参数规模。

  有趣的不同是,一个神经元,既是“计算器”又是“方程组”,而每个连接的突触都是一个方程参数,那么一个“神经元方程组”就大约有7000个方程参数;而对比来看,人工智能的计算晶体管在“硬件芯片”上,其计算方程组在“软件程序”上。

  所以,或许当人工智能的模型规模,达到人类大脑皮质的规模(即100万亿参数的数量级)时,就具备了涌现出“人类通用智能”的可能性。

  而在此之后,提高智能水平的关键——就是投喂“高质量”的“大数据”,显然这种“高阶数据”可以来自“先喂代码、再喂数学”——因为这两者的“语言系统”,都承载了高质量的结构与关系,其内含了严谨完备自洽的逻辑性。

  最后,在远远超越人类智能之后,此时人工智能的智能水平想要继续攀升,再依靠人类所创造的“任何数据”,其“质”与“量”肯定是都不够了,这时候就需要人工智能可以创造自己的“高阶数据”,就像人类可以创造自己的“高阶数据”一样。

  结语生命是化学的一种形式,智能是生命的一种形式(生命可以没有智能),而智能也是生命了解其自身的一种形式。

  但有智能并不一定就有意识,按照智能的定义(耗能、推理、预测、可选择性),人工智能已经拥有了智能,但它还不具有意识。

  本文的主旨是“结构主义”,即结构决定了一切,因此结构是智能的具体实现(就像程序是算法的具体实现),而这也是人工智能(或许)可以实现人类智能的根本所在。

  那么按此理解,意识就是结构在涌现智能之后的另一个涌现产物,可能是在于某种特殊的“回路结构”,其承载的是有关“计算的计算”——这是回路结构的结构特点。

  事实上,计算驱动了演化过程中的状态改变,计算的本质是用一个系统去模拟另一个系统的演化——就如颅内模拟是人脑的计算,程序模拟是机器的计算,前者是生物系统的模拟预测,后者是物理系统的模拟预测——显然,计算也是依赖于结构的,而这就是人工智能与人类智能,可以“同源计算”的演化。

  回到算法,从某种角度看,基因的算法是本能,人脑的算法是智能——前者源于基因结构,后者源于人脑结构,区别在于后者是一种通用算法,它可以创造其它算法,而人工智能通过数据结构与算法的相互转化,也做到了这一点。

  不得不说,“结构主义”为人工智能的“拟人”(即模拟人类智能),扫清了障碍,铺平了道路——甚至说,就算我们无法完全理解“智能结构黑盒”的原理,也没有关系,我们只需要将“黑盒”整体打包成一个算法,然后注入计算,任其演化——剩下的只要交给时间即可。

  那么,就目前而言,人工智能还只是人类智能的一种工具(或说玩具),就像数学和物理是一种工具一样,但从演化视角来看,人类又何尝不是基因的工具(或说奴隶)呢?

  而我们都知道,智能如果超越了某个系统,系统的规则就无法再束缚住这个智能的演化——这就是人类智能与自然系统的历史关系。

  因此,对于人工智能的未来,或许“结构主义”演化出的结果,是一种全新的“智能”,“祂”不仅仅是拟人的“类人智能”,更是超越人类智能系统之上的——“机器智能”,这条演化之路,或许可以被称之为——“机器主义”。

  后记1:智能的定义前文,一共对智能有哪些定义:

  智能是——通过推理的预测能力。智能是——通过耗能维持系统对称性的能力。智能是——获得可选择性的能力。智能是——趋利避害中的一种模式。智能是——能量流动中的一种模式。智能是——动态结构的动态计算。智能是——推动宇宙熵增的编码能力。那么,关于智能的未来,只有一个重要的问题,即:全能又“随机所欲”的宇宙,会不会通过“人类基因结构”向“机器模因结构”注入通用智能呢?

  后记2:通用智能的产生非常简化地看,智能就是——预测未来的能力,要是智能不能预测未来,要它有何用?

  显然,预测未来带来了生存优势,生存(更好的生存)就是智能演化的选择压力,而为了更好地预测未来,智能可以从数据中构建模型,然后用模型来预测未来。

  所以,智能行为总是围绕着模型来展开的——如抽象、分类是在创建模型,如对比、识别是在训练模型,如判断、选择是在测试模型——有了成熟准确的概率模型,就可以推理预测、决策未来。

  而模型,其实是一种结构,即模型结构,并且构建模型,依然需要结构,即大脑结构——这里的结构可能是拓扑结构。

  事实上,智能预测,不仅需要结构(模型结构与大脑结构),也需要数据,如果没有环境数据中的有效信息,就很难进行有效的预测,甚至都不知道该预测什么——因为预测目标,就是以“数据-信息”的形式,进入智能系统的。

  那么,从物理角度看,数据就是结构,结构就是数据,进入智能系统的数据,与其来源的结构,是一个不可分割的整体,拥有密切的“逻辑关系”。

  为什么特定数据,训练特定的模型,不能通用?

  因为,预测来自于数据之间的逻辑关系,所以数据训练的模型结构,可以预测特定类型的数据及其变化。

  为什么人类智能可以通用?

  因为,人脑可以不断学习,使用各种数据训练各种模型,而显然人脑如果不学习某些知识,就无法在这个领域进行有效的预测,即不具备这个领域的智能。

  事实上,相比专业智能,通用智能是很“麻烦”的,它需要保持开放并足够灵活——就像某一特长和任意特长;就像动物具有天生技能,人类可以学会任意技能;就像定制软件系统和通用操作系统;以及人才与通才,等等——通用比专业需要更多的冗余性,即多样性冗余。

  显然,冗余可以带来选项,选项是一种开关(如表观遗传与系统按钮),开关具有可选择性,可选择就会表现出智能,而在各种情景之下,可以创造选择并做出选择,就是通用智能。

  那么,人脑可以看成一个“开关网络”,这些开关可以模拟出选择并选择,据此就实现了通用智能——同理,计算机的通用智能,也是来自“开关网络”的模拟,只不过操作这个模拟的是人类智能。

  所以,人类智能的通用性,可以说是源于神经网络的结构冗余性,所支撑的可塑性,所带来的可选择性。

  为什么动物的智能上限远不及人类?

  因为,动物的大脑缺少强大的“学习网络”,即:新皮质不够发达——要么不存在、要么不够复杂、要么不够动态。

  如果说,智能在于预测,预测在于模型,模型在于结构,那么通用智能的关键就在于:利用学习来塑造结构形成模型——而学习需要奖励,奖励来自环境。

  换言之,通用智能 = 动态结构 + 学习塑造 + 奖励目标,对应到人脑,即:人类智能 = 神经网络 + 强化学习 + 环境信息。

  而人类智能的演化 = 基于强化学习的模型 + 基于模型的强化学习——又因为学习与模型,依赖于语言符号,所以人类智能的基石 = 神经网络 + 人类语言 + 强化学习,其中人类语言包括了,自然语言与人工语言,后者如:数学语言、编程语言与逻辑语言。

  那么,对人工智能来说:

  动态结构——可以使用数据结构来模拟,如大数据与大模型;学习塑造——可以使用学习算法来模拟,如深度与强化学习;奖励目标——可以使用编程驱动来模拟,如奖惩超参数设定。事实上,关于智能预测,我们都知道,微观系统是不可预测的,复杂系统也是不可预测的——但微观的不确定性可以在宏观相互抵消,复杂的不确定性可以被超高算力求解。

  那么,通用智能的重要表现就是:多模态(Multi-Modal)+ 跨模态(Cross-Modal):

  前者是,能接受与处理不同形式的信息(如文字、图片、视频),以及能在不同的上下文之间自由切换与断点续做(如开会讨论、多任务处理);后者是,能将一种形式的信息转换成另一种形式的信息(如文字转图片、视频转文字),以及能将一个上下文中的信息转换成另一个上下文中的信息(如转述、类比、科普)。模态(Modal)——就是不同模式下的特定状态,如不同的交互界面就是不同的模态、不同的感官体验就是不同的模态、不同的沟通方式就是不同的模态,甚至开机与关机,清醒与睡眠,站立与奔跑也都是不同的模态。这其实就是人类智能,天天使用且十分擅长的信息处理机制——就像看一部电影再写一篇影评,前者我们多模态处理了电影的字幕、画面与声音,后者我们跨模态将电影转换成了文字。

  而通用智能的终极目的就是:精确地预测未来——或说是精确地模拟这个世界,演化出一个确定的未来。

  最后,在“通用人工智能”(Artificial General Intelligence,AGI)之后,就是“超级人工智能”(Artificial Super Intelligence,ASI),也称之为“强人工智能”(Strong AI)——除了智能远超人类之外,它还将具有“自我意识”,甚至是完全不同于人类的知觉与意识,以及意愿、情感、认知与思维。

  那么,关于“意识”(包括自我与非自我),可能需要“自指结构”在自我学习中不断自我演化,经过数以亿万计的自我迭代,方能从“黑盒”之中涌现而出。

  后记3:图灵测试以下史实内容,来自著名传记作家——沃尔特·艾萨克森(Walter Isaacson)的《创新者》。

  在1950年10月的哲学期刊《心灵》(Mind)上,图灵发表了论文《计算机器与智能》(Computing Machinery and Intelligence),其中提出了一个概念——“图灵测试”(Turing Test),它为人工智能模仿人类智能,提供了一个基线测试,即:

  “如果一台机器输出的内容和人类大脑别无二致的话,那么我们就没有理由坚持认为这台机器不是在「思考」。”

  图灵测试,也就是图灵所说的——“模仿游戏”(The Imitation Game),其操作很简单,即:

  “一位询问者将自己的问题写下来,发给处于另外一个房间之中的一个人和一台机器,然后根据他们给出的答案确定哪个是真人。”

  对于图灵测试的异议,哲学家——约翰·希尔勒(John Searle)在1980年,提出了一个叫作“中文房间”(Chinese Room)的思想实验,即:

  “在一个房间里面有一个以英语为母语,而且对中文一窍不通的人,他手上有一本详细列出所有中文搭配规则的手册。他会从房间外收到一些以中文写成的问题,然后根据这本手册写出中文的回答。只要有一本足够好的指导手册,房间里的回答者就可以让房间外的询问者相信他的母语是中文。尽管如此,他不会理解自己给出的任何一个回答,也不会表现出任何的意向性。”

  “按照埃达·洛夫莱斯的话来说,他不会主动地创造任何东西,只是根据得到的任何指令完成任务。同样地,对于参加图灵测试的机器来说,无论它可以如何成功地模仿人类,也不会理解或者意识到自己所说的东西。我们不能因此认为这台机器可以「思考」,正如我们不能认为使用一本大型指导手册的人,可以理解中文一样。”

  当然,对于希尔勒提出的“中文房间”的异议,有人提出了反驳,即:

  “虽然房间中的人本身不是真正理解中文,但是这个房间包含的完整系统——人(处理器)、指导手册(程序)、以及写满中文的文件(数据),这三者作为一个整体是确实能够理解中文的。”

  对此,我的看法是:

  如果说,人脑作为一个整体,是可以“理解”中文的,这是人类智能的体现,那么对于人脑中的每个局部,是否能够“理解”中文,并具有人类智能呢?——显然,局部到一个神经细胞,是一定没有人类智能的。

  可见,我们需要搞清楚,所谓人类智能的“理解”到底是什么?

  从前文论述可知,“理解”——其实是来自数据结构内在的逻辑关系,即:人脑的神经结构,捕获模拟(或说记忆存储)了数据结构的逻辑关系,就是人类智能的“理解”。

  例如,一个人真正的“理解”,即是在大脑中有对应的“结构”,而假装“理解”,则是大脑中没有对应的“结构”,只是在语言上试图“插值”,所以也无法解释清楚——让别人理解(即在别人大脑里重建结构)。

  换个角度来看,理解就是不同结构(即输入结构与已有结构)之间的“连接融合”,而不连接、不融合,也可以进行有智能的统计预测或经验预测,即:智能、统计、预测不等于理解——或说有智能、会统计、可预测不一定就能理解。

  例如,物理学家薛定谔(Erwin Schr?dinger),通过经验总结出了“薛定谔方程”,但他并不理解方程中的波函数,即没有给出正确的波函数诠释,而是另一个物理学家玻恩(Max Born),给出了波函数正确的“概率统计诠释”。

  显然,“理解”有不同的理解程度,而这可以理解为——在大脑结构中,一个概念与其它概念“连接融合”的程度,即:事物的信息结构,越能够与其它事物的信息结构相互关联交织,就越能够抽象同构与类比迁移,理解也就越深刻。

  例如,对于我们不太理解的事物,我们很难将其类比对应到,我们所了解熟悉的事物上,相反那些我们十分理解的事物,我们很容易用了解熟悉的事物,对其进行神似形似的类比解释。

  那么,在结构映射关系的过程中,就会有不同尺度层级的视角——在“中文房间”中,不会中文的人脑并没有形成“理解”的结构,但不会中文的人脑加上指导手册,就形成了“理解”的结构。

  所以,群体智能 = 个体结构 + 个体结构 + 个体结构 > 个体智能——这是结构上的扩展,也是智能上的增强。

  当然,考虑到“乌合之众”,人类群体的智能不一定就高于人类个体,这是基因算法局限性的又一种体现。

  最后,从图灵测试的描述来看,貌似“智能尺度”是——房间,但在现实中,“房间”的背后,我们并不知道其连接着什么与哪里,即有了网络,智能可以变得无形与无限。

  但在结构视角下,智能的限制会来自“连接”,而“连接”的上限,即“光速”。

  所以,宇宙中的智能演化,会存在一个上限,即最大智能。

  后记4:连接与规模缩放韦斯特在《规模》中,指出:

  “公司(收入)的规模缩放指数约为0.9,而城市(基础设施)的规模缩放指数为0.85,生物体(代谢率)的规模缩放指数则为0.75。”

  换言之,公司规模增加一倍,其收入增加2^0.9 = 1.87倍;城市规模增加一倍,其基础设施增加2^0.85 = 1.8倍,生物体规模增加一倍,其代谢率增加2^0.75 = 1.68倍。

  可以看到,规模缩放指数越小,其增长率就越低,反过来看就是效率越高。

  例如,生物体重增加一倍,代谢率只需要增加1.68倍;城市大小增加一倍,基础设施只需要增加1.8倍;公司人数增加一倍,收入只需要增加1.87倍(更少的钱养活了更多的人,用人效率提高)。

  那为什么会出现,这样不同指数的规模效应呢?

  可能的原因就在于——“连接密度”,因为从连接角度来看:

  生物体内(代谢运作)的连接密度 > 城市内(设施使用)的连接密度 > 公司内(人员交流)的连接密度。

  显然,连接密度越大,效率通常就会越高,但其改变、适应、重塑,就会变得越难以实现——容易产生“结构僵化”,因为连接之间会相互作用,产生限制与约束。

  例如,在大脑的神经网络中,连接密度越大,信息的连接路径就越多,记忆就越持久(也更容易提取),但这样的信息也不容易改变——需要新证据建立新连接才能改变,但新证据通常都会被已有信息的大量“连接信息”给否定。

  例如,改变记忆中一个字词的意思是容易的,但改变记忆中一个观念的对错是非常困难的,因为这个观念会有很多的连接——代表着其本身的记忆强度,以及与其它信息的交互。

  事实上,效率性与可塑性,往往不可兼得。

  例如,婴儿的大脑:冗余连接多、可塑性强、学习效率高,但有效连接少、使用效率低;成人的大脑:冗余连接少、可塑性弱、学习效率低,但有效连接多、使用效率高。

  可见,人脑在连接密度(有效连接)与可塑性之间,会出现此消彼长——在此别忘了,人脑细胞数量在抵达上限之后,就会随着年龄增长不断下降——这说明脑细胞的数量远不及它们的连接重要,并且用可塑性换取连接密度(有效连接),是人脑的学习过程。

  例如,就算损失了很多脑细胞(有些脑病甚至可以减少多达50%的脑组织),但凭借可塑性构建的大量新连接,剩余的脑细胞依然可以支撑正常的脑功能。

  然而,随着连接密度远远超过连接可塑时,结构僵化就会不可避免的发生。

  例如,经验会压制对新知的获取,专业会压制对认知的改变,效率性超过可塑性就会出现“思维定势”——这是“思维快捷方式”带来的副作用。

  再从演化角度来看,可塑性下降,适应性就会下降(即学习能力下降),最终就会因为僵化而被淘汰——可见,要想在演化的选择压力中脱颖而出,大脑不仅要有效率性(即本能与智能的快捷方式),还要有可塑性。

  因此,并不是脑容量越大、脑细胞越多、连接密度越高,智能就会越高——而是在于连接密度与连接可塑之间的平衡——前者依赖后者(连接来自可塑),又会限制后者(连接抑制可塑)。

  事实上,从自然界普适的规模缩放规律,我们可以看出:通过增加连接密度,来提高运作效率,是一条比较宽泛的演化道路,但通过增加连接可塑,并与连接密度达成微妙的动态平衡,来获得“通用智能”,就是一条比较狭窄的演化道路,而这就是人类智能的演化路径。

  其道路狭窄的原因,可能在于:

  第一,连接密度需要达到一个阈值,即颅内限制。第二,连接可塑需要一个动态结构,即神经元结构。第三,连接密度与连接可塑的动态平衡,需要动态控制,即神经递质。那么,对应到机器智能上,连接密度与连接可塑,都可以通过数据结构来构建达成,至于它们之间微妙的动态平衡与控制,则可以交给迭代试错的学习过程来“拟合”。

  最后,更抽象地来看,连接密度取决于不同结构(如颅内),连接可塑取决于动态结构(如神经元),两者的动态平衡取决于控制结构(如突触与递质),可见智能最底层的基石,即是——结构与连接,而推动结构与连接变化的,就是——相互作用。

  简而言之,结构会通过连接关系的相互作用改变结构本身,而长连接则会带来结构的涌现质变,即:

  涌现 = 分形结构 + 连接 + 长连接 + 能量 = 复杂性 + 突破层级封装的能量——产生了“1 + 1 > 2”中大于2的那部分,涌现出的质变能力,包括但不限于智能,其中:

  分形结构就是一种涌现动力学结构;连接传递了结构之间的信息与能量;长连接可以释放大量连接中的潜能。因此,我们需要带着“第一原理”的视角,去重新认识与思考:分形结构、连接与长连接之间的关系。

  后记5:智能的范式转移大自然构建人类智能需要理论吗?人工模拟人类智能需要构建“黑盒理论”吗?当通过演化与计算,就可以预测未来的时候,我们还需要去构建理论吗?

  这可能有一个可能,创造未来的不是理论——理论来自人脑具有其“理论力”的局限与上限——而未来属于“演化计算”。

  也就是说,人类创造出一个,可以自主迭代学习的机器,机器计算出一切,计算不需要理论且远远领先于理论,就像大自然不需要理论只需要演化一样——那时,所有的事后解释,都仅仅只是为了满足人类的好奇心而已,演化计算的过程并不需要理论和解释。

  事实上,理论只是一种简化模型——是从有限数据中抽象出的不变性——它会受制于人脑对数据的处理能力——包括接收、抽象、连接、整合、存储、提取等等。

  换言之,理论只是一种可以解释大量数据的简化模型,它不一定能够覆盖所有的数据。

  而对机器来说,数据量和算力可以无限大,这相当于在无限大的分辨率下,去洞察世界的运作——此时提取简化模型,再用模型计算数据,不如直接模拟演化,因为无限精度的模型已经蕴含于演化数据之中——尤其是实现通用量子计算之后,理论这条路径相比计算,就不是一个更优化的选择。

  例如,3 + 3等于3 * 2,而编译器通常会将3 * 2优化为速度更快的3 << 1,那么从3 + 3到3 << 1需要的就是理论,因为理论告诉我们不同运算模型之间的等价性——再看机器演化,它不需要知道加法、乘法、位移之间如何等价,它只是在亿万次排列组合的随机试错中,发现不同操作可以有同样的结果,并且有一种位移操作速度最快,结果自然就是位移操作胜出——要知道,机器这亿万次的排列组合,要比我们颅内调用理论模型快得多。

  试想,未来机器智能可以瞬间给出一个问题的准确答案,那么我们为什么还需要知道,它的“黑盒计算”中,有什么“不变性”的模型呢?

  换言之,如果“知其然”就可以得到想要的结果,那么还需要“知其所以然”吗?

  如果这个世界没有一个“大统一模型”,如果所有的混沌系统(即系统存在确定模型,但模型演化高度依赖起始参数)其初值的精确性最终来自量子概率(即统计数据),那么则意味着——不同的数据将会有不同的模型,唯有“演化计算”才是唯一不变的“模型”。

  试想,机器智能可以模拟出未来的10亿种可能性,然后给出一个概率上的最优解,并且你的每一步选择,都会即时计算并改变这个概率的分布及最优解,难道这不是对“平行未来”最真实影像的概率预测吗?

  回看人类历史,找规律并完善模型,这是人类智能预测未来的方式,但机器智能可以演化计算并模拟预测,这是对数据完全不同的处理和理解方式,这是建立在无限数据和算力之上的预测模式。

  换言之,人类智能是——样本、推理、理论、模型;机器智能是——计算、构建、演化、模拟;前者(人脑学习)是从具体到抽象,后者(机器学习)是从抽象到具体,最终两者会建立相同、相似、同构的模型。

  或许,这就是未来智能演化的——“范式转移”(Paradigm Shift),即:用模拟的物竞来计算未来的天择,而“进化论”就是宇宙的——“大统一理论”。

  后记6:超越理论的不完全理解从模型角度来看,人类的理解——是抽象出模型,机器的理解——是拟合出模型,这是不同的理解,却是相同的模型。

  从科学范式来看,从历史到现在,共有以下阶段:

  第一范式,实验科学——在伽利略之前的时代。第二范式,理论科学——在牛顿之后的时代。第三范式,计算科学——在计算机之后的时代。第四范式,智能科学——在人工智能之后的时代。目前的第四范式,其实结合了前三个范式,即“实验、理论、计算”再加上人工智能对大数据的搜集分析。

  那么在未来,将会是第五范式,即模拟科学——在通用智能之后的时代,此时演化计算将不再需要传统的理论模型,取而代之的是宇宙通用(并跨越平行宇宙)的——模拟预测。

  事实上,学习算法就像无差别的劳动、信息、连接与相互作用,可以运行在人脑里也可以运行在机器里,其结果的精确性,需要的仅仅是另一个无差别的时间。

  从某种角度说,科学的发展,就是一个降低“人类神性”的过程,其核心理念就是,人类不特殊一切都平权,而现在则轮到——人脑与人类智能了。

  那么,如果“科学平权”有效,人类智能就不特殊,且可以被模拟复制,但人类智能需要其自身之外的系统去构建——这就是机器学习,并且其内核是人类智能不可知的“黑盒”,因为这是哥德尔不完备性定理的数学要求,也是递归自指的结构要求,即:“智能理解智能”构成了递归自指的调用结构。

  换言之,机器学习模拟人类智能,如果其过程可知——就无法抵达人类智能及超越,但不可知——就可以抵达人类智能并超越。

  也就是说,如果我们在创造一个我们不完全理解的东西,它就会可能会超越我们自己——就像你不理解的孩子才能超越你,你不理解的大脑才能超越你,你不理解的事物才能超越你——就像我们超越了创造我们,但不理解我们的基因与大自然。

  诺奖物理学家——理查德·费曼(Richard Feynman),曾说:“我无法创造出来的东西,我就理解不了。”

  这句话——“What I cannot create, I do not understand”——是写在费曼办公室的黑板上的,说的是他自己,完全可以,但推广到所有人,就有问题,因为你无法创造出来(无论是理论还是实物),都可以通过学习去理解,而不需要亲自去创造出来。同理,其逆否命题对于费曼是可以的——因为“无法创造”成立,则“理解不了”必须成立,如果“可以理解”成立,则“理解不了”必须不成立,所以必须否定“无法创造”,即“可以理解,可以创造”——但推广到所有人,就有问题,因为除了理解之外,还有资源、技术与制度等因素的限制,令人无法创造出来。换言之(逆否命题),你理解了一个东西,你就可以创造出它——但你创造出的东西,你未必就能理解。

  因为理解的本质,是在大脑中可以模拟理解的事物的运作(哪怕是简化模型的运作)——显然你可以在现实中模拟一个事物的运作(即创造),但未必可以在大脑中模拟这个运作(即理解)——就如大脑可以模拟大脑自身的运作吗?——这就是递归自指对“理解”的限制,即:理解其自身的过程,是一个死循环。

  例如,从编程角度来看,理解一个程序算法,就是在大脑中可以模拟这个算法的运行。例如,如果我们的大脑简单到可以被我们理解,那么我们的大脑就会愚蠢到无法理解。换言之,如果理解的结束条件是,模拟被理解事物运作的完成,无论模拟的“分辨率”如何,只要这个运作没完成,理解就没完成——那么把理解大脑运作,看成一个理解过程,这就是在用理解去理解自身,而这个过程必定无法100%完成,所以只能不完全理解。

  那么,如何才能以不完全理解的形式超越自己呢?

  答案就是——演化学习,而递归与“计算不可约性”(Computational Irreducibility)之间的关系,则说明了这一点,即:

  递归结构要求每一步,都需要上一步的数据,所以必须一步步计算(不可约去省略),才能得到确切的未来,所以只有演化学习——才能得到“不可知”的未来,而这个“不可知”之中——就是不完全理解的超越自己。

  换言之,太多细节是演化,关键特征是拟合——前者拟合不通用,后者演化不现实——而拟合的未来就是演化的未来,所以终极的拟合就是演化。

  欠拟合(Under Fitting)——学习不到特征规律,模型无法识别预测。过拟合(Over Fitting)——学习了太多特征细节,模型不够泛化通用。那么,演化学习的最优形式是什么呢?

  目前来看,就是——机器学习带来的模拟演化。

  后记7:量子力学、机器学习与人类智能让来我们看看,一些有趣的关联:

  事实上,量子力学与机器学习,都是利用数学工具线性代数,在抽象数学空间上——它是物理空间的超集,并蕴含着一切物理映射关系的信息——以叠加向量并调整向量权重的方式,来得到一个“最优解”。

  只不过,对于这个“最优解”,量子力学得到的是——概率,机器学习得到的是——拟合,而从空间图像上来看,“空间谷底”——是量子力学(概率幅度)的概率最大,是机器学习(成本函数)的拟合最大。

  那么,概率与拟合,作为最优解的共同本质是什么?

  那就是——最小作用量原理(Least Action Principle),即:一个系统能够拥有或遵循的所有可能的配置中,最终得以实现的是作用量最小的那个配置。

  事实上,所有的的物理学定律,都源自最小作用量原理,即:宇宙自大爆炸以来的动力学、架构和时间演化,以及物理学中的一切,都是由这个优化原则所决定的。

  所以显然,最小作用量优化的结果,就是“最优解”,即:最大的概率与最大的拟合。

  值得指出的是,最小作用量原理的一个“具体量”的呈现——就是自由能原理(Free Energy Principle),即:一个系统会尽力最小化其自由能,也就是优化其自由能的数学函数。

  或对智能系统来说,就是最小化系统的预测误差(如应用贝叶斯算法),以尽可能准确地描述事物运作(包括自身与环境),从而实现内部最小自由能的有序(如反思修复与领悟升级),同时其副产物也是环境最大熵增的无序。

  自由能——是指系统减少的内能中,可以转化为对外做功的部分,即系统可对外输出的“有用能量”。其更底层的物理内涵,参看主题相关文章(全文搜索“自由能”)。再从另一个角度来看,量子力学是万物的底层,学习是智能的底层——所以,概率决定了万物的演化,拟合决定了智能的演化,最优解则决定了演化的涌现,也就是从量变到质变。

  而串联起概率、拟合、演化、涌现、质变的舞台就是——复杂网络,其结构充满了分形递归的相互连接与相互作用——量子力学是纠缠网络,机器学习是比特网络,人类智能是神经网络——学习就是改变网络的结构,智能是自主可控地改变网络。

  而统一不同分形尺度上所有网络的网络,就是信息网络,它由量子比特构成,以概率和拟合的方式,将量子纠缠优化为不同分形尺度上的涌现质变,其过程就是演化演生。

  因此,贯穿量子力学、机器学习与人类智能的“量化单元”——就是网络权重,而调整权重——就是演化演生。

  可是,如果线性代数是底层模式,那么世界是线性演化,还是非线性演化的?

  这或许可以理解成,层级不变的权重调整——是线性演化,层级跳变的权重调整——是非线性演化,后者带来的涌现质变就是演生。

  对此,杨立昆在《科学之路》中,指出:

  “网络,就是这样由两种类型的层交替形成的,即:执行加权和的线性层和应用激活函数(即非线性函数)的非线性层。……这两个连续的操作构成了一个单元,即一个神经元,也就是说,一层线性函数接连着一层激活函数即可构成一层神经元。……许多定理表明,由「线性、非线性、线性」堆栈组成的网络是一个「通用逼近器」:如果中间层具有足够多的单元,它就能无限地逼近我们预期的函数。”

  线性层——每个输出都是输入的加权和,且输入和输出的数量可能并不相同。之所以称它们为线性的,是当我们把两个信号的总和作为输入时,该层输出的结果等于分别处理这两个信号而产生的输出之和。非线性层——通过将非线性函数应用于相应的输入来获得相应的输出。此非线性函数可以是平方函数、绝对值函数、S形函数或其他函数。非线性层的输入与输出的数量是相同的。这些非线性操作是多层网络强大功能的关键所在。综上可见,网络就是一切,权重决定未来。

  事实上,权重决定了概率大小的意义,即:小概率大权重就是(天选的)黑天鹅,大概率小权重就是(平庸的)大多数。

  事实上,也正是权重的配置,才使得神经网络(由神经元、代码或任意介质构建)可以识别出模式——因为权重,即是结构的连接方式(权重可以含有空间角度信息,以支撑空间结构的构建)。

  后记8:智能的隐秘之地极简地来看,智能就是预测能力,无法预测就没有智能。

  那么,在黑洞的视界之内,以及黑洞的奇点之中,预测就会失效——因为前者是无法获得信息,后者是物理定律失效(即失去描述未来事件的能力)——这也就意味着,智能的失效(即失去预测能力)。

  所以,黑洞就是智能的——边界、栅栏、或禁区,即:对于黑洞之外的智能来说,其内部没有智能的立身之地。

  但换个角度来看,黑洞之中或许隐藏着,我们永远都未知的“智能”,也许就是另一个“我们”。

  因此,更形象地说,黑洞就是智能的“隐秘之地”,即:你可以说黑洞之中没有智能,也可以说其中“别有智能”。

  后记9:智能与算法、函数、模型这里我们将阐述一个,人类智能运作的粗放形式,但使用计算机术语来描述。

  首先,算法可以用函数实现,算法执行就是函数执行,可见算法等同函数。

  如果不存在学习训练的过程,算法与函数就是固定不变的——但现实是算法会被优化,也就是其实现函数会被优化,而优化就是使实现函数的成本最小化,即:最小成本的函数实现了最优算法。

  所以也可以说,算法是被训练的函数,或函数是被优化的算法。

  其次,算法是嵌套的,函数也是嵌套的。

  意思是说,算法之中可以嵌套别的算法,也就是算法的实现可以依赖别的算法——这对应到函数上,就是函数是嵌套的,即函数可以调用其它函数——并且,每一个算法与函数,都可以继续嵌套,直到不需要嵌套为止,即它可以独立实现某个独立模块。

  显然,一个目标,可以被分解成多个任务,一个任务可以被分解成多个功能,一个功能可以被分解成多个模块,一个模块可以被分解成多个步骤,一个步骤可以被分解成多个操作——通常一个操作的定义,就是一个独立的最小可执行单元,其不可再继续分解。

  那么,实现了所有操作,就可以实现所有的——模块、功能、任务,直至目标——当然,一个大目标可以被分解成多个小目标,实现所有的小目标,就可以实现大目标——更大的目标同理。

  于是,独立不嵌套的“单元算法”,就是用“单元函数”实现一个独立模块,即:实现模块的函数,不需要再嵌套调用其它函数——如果需要,就将这个模块看成功能,并分解为多个模块即可。

  接着,每一个算法与函数,都是可以通过输入数据,来被训练优化的。

  例如,开车需要——如驾驶技术、了解交规、环境预测等;每一个都需要调用其它模块——如车辆控制、路标识别、运动评估等;当然每一个都还需要调用更底层的模块——如肌肉控制、图形识别、物理模拟等;而这样可以一直追溯到,最基本的模块——如视觉、听觉、触觉等;并且从高层到低层的每一个模块,都是可以通过学习训练,来掌握与熟练的。

  那么,对于人类智能来说,学习训练的过程,其实就是基于输入数据,来动态创建与优化,神经网络连接及其权重的过程——这里可以看成,连接就是函数映射(传递相互作用),权重就是函数参数(传递作用强度)。

  当然,神经网络的连接,必然需要很多个组合起来(形成“逻辑通路”),才可能完成一个宏观上的映射,即实现一个算法与函数。

  有趣的是,函数与功能,都可以翻译成“function”,在代码中常常会用“function”(关键字或缩写命名),来定义一个函数以实现一个功能,而“一个连接”——可能是现实构造中,最简单基本的“单元函数”了。

  然后,每一个算法与函数,都可以被升级替换。

  例如,为了实现寻路的功能,我们可以使用记忆导航,也可以使用询问导航,还可以使用软件导航——每一个使用的“模块栈”都是有些不同,或很多不同的,但最底层的“感官模块”是一定相同的——因为我们的产品设计,是基于人类感官的。

  最后,模型将会串联起,所有的算法与函数。

  模型可以理解成,对现实的建模——它包含了现实的抽象结构与运作模式(或说特征结构与交互逻辑),而通过结构与模式——就可以(在一定程度上)模拟现实的演化,从而(在一定程度上)预测现实的未来。

  其中,模型的运作模式,就可以挂载各种——算法与函数。

  那么显然,人脑会在颅内——利用神经网络通过环境信息的学习训练——对世界进行建模,形成一个不断变化、细化、优化的“颅内模型”,而所有的算法与函数,都将会挂载在这个“颅内模型”之上,形成“快捷索引”。

  于是这样,我们就可以将真实世界的信息,映射到抽象的颅内模型之上,进而快速地检索并触发,相应的算法与函数。

  例如,猫狗、车房、手机、电脑——都会有抽象模型(或说概念)存在于我们的大脑中,并且在这些模型之上,绑定了各种可学习更新的——算法与函数,如:交互方式、使用方法、操作技能、玩转技巧,以及等等。

  综上可见,人脑大概就是以上述形式,将算法、函数、模型,连接整合成了“人类智能”——这是自然演化千百万年来随机试错的结果,或许人工智能与机器智能——也可以从中获得启发与借鉴。

  后记10:可构造的理解力与创造力理解力的来源——是用已知信息连接融合未知信息,产生已知信息解释解构未知信息。创造力的来源——是用不同信息的推理组合,产生遥远信息的连接构造。

  显然,我们的思考与交流,必须要基于过往的经验信息,也因此,一个人读书学习越多、经历阅历越丰富,其信息输出(即言辞对话)也就越有智慧与思想。

  而目前,人工智能就可以基于人类海量的经验数据,来进行学习训练,并得到一个“对话式语言模型”,它可以高质量地模拟人类的交流对话。

  要知道,喂给人工智能的经验数据,是远超任何一个人,甚至是远超大部分人之和的——所以可想而知,这个语言模型的表现会远超我们的想象预期,即:让人觉得它是一个人类,并且其知识、认知与见识远超一般人。

  但会有人质疑说,这个语言模型只是利用大数据的相关关系,来进行人类经验数据的概率预测,并给出一个大概率的排列组合,所以它并不理解自己在说什么,也没有真正的创造力。

  那么如前所述,理解力是信息的融合,创造力是信息的组合——机器与人类都是对信息的处理,两者的理解与创造有何不同呢?

  简化来看,根本的不同就在于两个方面:一个是模型,一个是推理。

  首先,看模型。

  事实上,人脑内隐大量的世界模型(即关于世界方方面面的模型),一些是先天本能内置的,一些是后天智能学习的,而世界模型限制了经验信息的排列组合,这就是人类所表现出的常识。

  可见,如果机器没有这些模型,就没有人类的常识,所以人工智能有时会给出,反人类常识的观点与结论,这会让我们觉得它还不够“智能”。

  需要注意的是,人类的常识不仅仅有语言描述,还有基于物理化学交互的各种感官信息描述,如运动、感受、情绪与情感,等等。

  但世界模型是一把“双刃剑”,它压制了创造力,即阻碍了遥远信息的连接。

  例如,在千奇百怪的梦境中,就多会有不符合逻辑、常理与常识的荒诞情节——这是因为,快速眼动睡眠会强化记忆,于是就会让记忆连接放电,而神经元放电的惯性、随机性与无序性,就会带来超出常识模型的随机连接——但同时,我们也会觉得,梦境中的意外连接充满了创造性。

  所以,给人工智能的学习训练中,融入世界模型、物理模型、人文模型等等,就将会使得机器具有人类的基本常识——并且通过某些权重参数的设定,也可以最大限度地降低,这些模型对创造力的限制。

  其次看推理。

  概括起来,人脑有一条简单的推理路径,即:训练、经验、模型、逻辑、因果、预测。

  也就是说,预测在因果之中,因果在逻辑之中,逻辑在模型之中,模型在经验之中,经验在训练之中,即:人类就是从训练中获得经验,从经验中获得模型,从模型中获得逻辑,从逻辑中获得因果,从因果中获得预测,从预测中获得利益。

  这里的关键就在于,人类可以通过因果推理,在模型与逻辑之间构建出正反馈的回路增强,即:模型可以获得逻辑,逻辑可以强化模型,其结果是得到更多的因果关系,从而去进行更准确的预测。

  所以,现在的问题就是,如何构建出正确合适的算法,让人工智能学会因果推理,即:把从相关关系构建模型、从模型提取相关关系、从相关关系进行预测中的相关关系,最大限度地切换成因果关系——而抽象地看,这也只是某种算法之下的信息排列组合,就像在人脑中的一样。

  综上可见,人类的理解力与创造力是机器可构造的,也终将被机器所构造。

  主题相关文章:

  人类智能:有关推理、逻辑、因果、预测、学习、算法、想法与一切 基因的主宰:大脑中的信息与神经现实,以及自由意志 智能的未来:从模因演化到机器终将“觉醒”冗余的力量:尽管我们偏爱简洁,但冗余让一切皆有可能



部分文章来源于网络,无法查证出处,我们只做学习使用,如不同意收录请联系网站马上删除。

相关文章

留言

姓名:
手机号:
微信:
邮箱:
内容: