升维思考，降维行动|升维思考|神经网络|算法|维度|贝叶斯|降维行动|高维

聪明如你，请做题：

一个盲人有5双白袜子和5双黑袜子，除了颜色差异，其它一模一样，弄混了，请问如何分开？

这是一个简单而有启示的智力题。

答案很简单：拿到太阳下去晒。‍‍‍‍

在阳光下，黑袜子吸热更快，所以通过触摸，盲人可以感知到袜子的温度差异，从而将白袜子和黑袜子分开。

最初，盲人只能通过触摸袜子的材质，但无法区分颜色。因此，我们可以引入“温度”这个维度，通过阳光加热，创造了一个新的识别维度（温度差）。

这就类似于在复杂问题中引入额外的信息维度，以便更好地理解问题。

我曾经写过“灰度认知，黑白决策”，本文像是下联。

顺着这一点，我想谈及信息的“维度”。

最有名的“升维思考”，也许是爱因斯坦的相对论。‍‍‍

在牛顿物理学中，我们处理的通常是三维空间中的物体运动，时间是一个独立的量。

但爱因斯坦在狭义相对论中提出了一个全新的框架，称为四维时空，将时间和空间视为相互关联的统一结构。

在广义相对论中，物质和能量会弯曲时空，而物体在弯曲时空中的运动实际上是沿着时空曲线运动。

由此，人类对物理世界有了更加精确的解释。

就你我而言，我们究竟是如何理解这个世界的？我们如何判断一个未知的事物？我们如何在信息不充分的情况下做出决策？‍‍‍‍‍‍‍‍

也许每个人都是如盲人摸像一般，通过不同角度的特征做出推断。‍‍‍‍

了不起的高手，往往比普通人有更高的认知维度，例如围棋天才独具的“感觉”，杨振宁推崇的“Taste”。‍‍‍‍‍‍‍‍‍‍

AI通过降维简化问题，通过升维来揭示更多的隐藏信息，这一点在深度学习的领域产生了神奇的效果，以至于机器可以获得8年前人类还自以为独具的“感觉”。‍‍

在大模型时代，AI借助于算法、算力和数据，获得了在某些方面超越人类的“高维思考”能力。

而此时，人类的联想和提问能力，就像是构建一个维度，或是在大模型的向量空间里，勾出一段彩虹。

就像扔出一个骰子，对于未来的可能性，我们要升维思考，考虑6个面的概率，可结果只有一面。‍‍‍‍‍‍‍‍‍‍‍

这大概是“升维思考、降维行动”的一个简单隐喻。

《人工智能：现代方法》说：

‍人工智能(artificial intelligence，AI)领域不仅涉及理解，还涉及构建智能实体。这些智能实体机器需要在各种各样新奇的情况下，计算如何有效和安全地行动。

我们需要理性思考，也需要理性行为，尤其要在“存在不确定性时取得最佳期望结果而采取行动。”

升维思考与灰度认知，都和概率论有关，再加上基于时间的与外部环境的互动，贝叶斯定律常常现身其中。‍‍‍‍‍‍‍‍‍

更现实一点的场景是：对于一个投资者，需要升维思考。例如芒格的多元思维模型。但是他的模型是通过多个维度的证伪，来切割出钻石的。--本文提及的朴素贝叶斯分类，底层的原理（可感知的那部分）是想通的。‍‍‍‍

而行动本身，往往是降维的。

从数学的角度看，我们需要一个（相对）最优概率；‍‍‍

从物理的角度看，系统需要（相对）最低势能状态；‍‍‍‍‍

从决策的角度看，人类必须采取行动并接受一个黑白分明的结果。

多面骰子在空中飞舞，最终只能选择一面朝上。

投资者最终需要做出“买或不买、卖或不买”的决策，而且行动越少越简单越好。

降维行动的例子：京东说要“多快好省”，拼多多只要一个“省”。‍‍‍‍

那些大事不糊涂的人，那些过得不错并且还能轻松的人，大多是在维度上取得了胜利。

现在做事不容易，许多行业和公司都在谈“转型”。但是，如果没有维度上的突破，可能只是在原路上瞎扑腾。

活在二维世界里的生物的死局，往往要靠超越维度来破解。‍

“井底之蛙”看似是关于视野的隐喻，其实是关于维度的类比。

本文从一个我喜欢的智力题开始，将毒酒问题的二进制解法，类比为更高维度的胜利。‍‍‍‍‍‍

类比可能是鲜活的，但绝不严谨。甚至于在文章的推进过程中，升维和降维都会出现一些概念的交错。

类比和隐喻都是思考的脚手架，请你能用且用，用完后记得拆除。

更广阔的意义上，每个人都是全体人类的一个维度。

所以，请活出你自己。

一

让我们从一道有趣的题开始：

国王有一百桶酒，比自己的生命还重要。结果有一天其中一桶被投了慢性毒药，喝了以后半个小时就会死掉。国王大怒，命令玩忽职守的侍卫去试毒。酒不能被混合，一个侍卫可以喝多桶酒，一桶酒也可以由多个侍卫喝。

请问：怎么样才能用最少的侍卫、在半小时内知道哪桶是毒酒？

解法1：一维法

最简单的方案，是让每个人试一桶酒，用时30分钟，就可以判断出哪一桶酒有毒。

这个是“一维”的直线思维，在现实生活中也未尝不可，好过什么都不干。

这样的解法，答案是：99个人。

解法2：二维法

从二维层面去思考，引入笛卡尔的坐标。

把100桶酒摆成10✖️10的矩阵，如下：

接下来：

让阿拉伯数字编号的1号侍卫（如上图，黄色），把第1行酒每桶喝一口，一直到10号喝第10行；
让汉字编号的一号侍卫，把第一列酒每桶喝一口，一直到十号喝第十列；
由于坐标的定位功能，假如毒酒在图中绿色的位置，那么3号侍卫和二号侍卫都会死，自然可以锁定毒酒的位置。
但是因为第10行和第十列可以不用安排人，也能获取信息，所以可以减少两个人。‍‍‍‍‍

这样的解法，答案是：18个人。

解法3：三维法

能否再延伸至三维层面去思考呢？

我们很容易想到，搭建一个5✖️5✖️4的三维模型，正好有100个位置放酒，如下：

接下来（和二维解法差不多）：

让阿拉伯数字编号的1号侍卫（如上图，黄色），把黄色箭头这一面墙的酒每桶喝一口，一直到5号喝第5面墙；
让汉字编号的一号侍卫（如上图，橙色），把橙色箭头这一面墙的酒每桶喝一口，一直到五号喝第五面墙；
让字母编号的a号侍卫（如上图，蓝色），把蓝色箭头这一层的酒每桶喝一口，一直到d号喝第四层；
同理，通过三个维度，也可以锁定毒酒的位置；
以及，每个维度都可以少一个人。‍‍

这样的解法，答案是：11个人。

最笨的方法1，会死一个侍卫；方法2会死两个（或1个，或零个），方法3会死三个（或两个，或一个，或零个），总之一个维度需要获取一个信息，可能会死一个，或者提供零的信息。

所以题目中有含糊的地方，到底是用最少的侍卫，还是死最少的侍卫？考虑到国王的残酷，我们姑且认为是前者。

然而，即使聪明如你想明白了上面三个维度的解法，还是没有找到最优答案。

解法4：二进制

如果用计算机的思维来分析这个问题，那么首先考虑如何存储这100桶酒。100桶酒可以用二进制7个比特来表示（2的7次方>100）。

上面的解法1到解法3，都是用100个位置存储100桶酒，只是描述位置的坐标，从一维到三维，效率越来越高，所以用的侍卫越来越少。

如果用二进制呢？

二进制，是逢二进一的计数编码方法，只有0和1两个数码。那到了2怎么办？只有往前进一位，变成10。

所以，十进制的2、3、4、5，二进制分别表示为10、11、100、101。二进制广泛应用于电子计算机的数据处理。

回到我们的题目，计算如下：

第一步：对于每一桶酒的二进制表示，编码后，最长的数字是7位数，不足七位前面用0表示；

1号桶是0000001，

2号桶是0000010，

3号桶是0000011，

4号桶是0000100，

100号桶是1100100；

第二步：可以找七个侍卫，从左到右，编号“一”至“七”，每人对应一个位数，从第一位到第七位。

第三步：负责第一位数的侍卫“一”，只要这100桶酒中，二进制编码的该位数对应的数字是1，则喝掉此桶酒。

如此类推，每个侍卫喝掉他所负责的位数上数字是1的酒。

第四步：30分钟后，侍卫按照“一”至“七”，死掉的置为1，活着的置为0。

例如，假如第七桶酒为毒酒，其二进制编码是0000111。那么按照上面的喝酒规则，其五、六、七位都是“1”，所以编号五、六、七的侍卫都会死。

前四个侍卫，遇到这瓶毒酒，因为对应的数字是0，所以都会活。

二进制的0和1，正好对应了活和死。

根据7个侍卫喝酒后半小时的生死状态，能够得出毒酒的二进制编码。

这样的解法，答案是：7个人。

以下，请允许我从一个非专业人士的“感知”的角度，来说说这道题的启示：

1、第一种方法，是简单的线性搜索；

2、第二、第三两种方法，是增加了维度的线性搜索，可以理解为交叉搜索，等价于坐标系；

3、前三种解法，维度越高，效率也就越高；

4、因为有“半小时”的时间约定，所以不能用简单的二分法来解答。所以，第四种解法用二进制为100瓶酒编码，进而用0和1对应不喝与喝（也对应了撞见毒酒后的生和死）。

5、那么第四种用二进制的解法，是否可以理解为“7维”的解法？

第一种解法有1个维度，该维度上有100种可能。这其中的99种，每种可能都需要1个侍卫去通过喝酒“消除不确定性”；
第二种解法有2个维度，每个维度上有10种可能，每种可能都需要1个侍卫去通过喝酒“消除不确定性”，然后这两个维度的交叉点，就是毒酒的位置；
第四种解法有7个维度，每个维度上有两种可能，每两种可能，只需要1个侍卫去通过喝酒，就可以“消除不确定性”。于是，这七个维度的交叉点（表述为一串二进制数字），就是毒酒的位置。

在这道题目中，使用二进制编码的策略是核心。通过将100桶酒编码为7位二进制数，我们能够用最少的侍卫（7个）来解决问题。

这种方法背后的原因是二进制的指数效应：每增加一位二进制位，就可以表示更多的状态，极大地减少了解决问题所需的资源（在这个例子中是侍卫的数量）。

相比于简单的线性搜索，二进制让我们进入了一个更高效的“维度”空间。

在这个空间里，每个侍卫只需要判断一个“0”或“1”的状态，就能为100桶酒中的每一桶赋予唯一的二进制编码。

这种策略不仅有效地消除了不确定性，还展示了通过增加维度解决问题的力量。

这一过程展现了升维和降维的相互配合：

升维思考：通过引入多个侍卫，每个侍卫相当于引入了一个新的维度，让我们能够从更多角度捕捉信息。

降维行动：通过侍卫生死的二值化状态，我们将所有复杂性压缩为一串二进制信息，这一信息指向毒酒的唯一桶号。

二

在上面递进的解体过程中，将二进制的方法，类比为7维，是一个有趣的想法。‍‍‍

进而，我们可以用一种更直观的方式，来阐述“升维思考、降维行动”。‍‍

我喜欢用可感知的思考来理解一些概念，而不是单靠文字本身的解释。‍

让我们再来看一道有趣的题目，以感知“维度”。

有三盏白炽灯泡和三个开关，每个开关控制一盏灯泡，但你不知道哪个开关对应哪个灯泡。

你可以进入一个房间控制开关，但灯泡在另一个房间，你只能进入灯泡房间一次来检查结果。

如何在最短时间内确定每个开关对应的灯泡？

聪明如你，即使知道答案，也不妨从维度的角度重新思考一遍。‍

难题在于，开和关只有两个维度，要想界定出三个灯泡，必须创造出一个新的维度。

白炽灯的另外一个属性是发热，所以可以引入“冷热的维度”。

解决方法：

打开第一个开关，保持它打开。
打开第二个开关一段时间后关闭它。
保持第三个开关关闭。
然后进入灯泡房间检查灯泡：

点亮的灯泡对应第一个开关。
热的但不亮的灯泡对应第二个开关。
冷的并且不亮的灯泡对应第三个开关。

这三种状态相当于在这个系统中添加了不同的维度：

亮/不亮的维度：开关是否正在控制灯泡。
热/不热的维度：灯泡是否曾被打开过但关闭。
冷/热的维度：灯泡的物理状态（热与冷）提供了额外的信息。

上面的冷和热，也是与时间的维度关联的。

事实上，精确而言，如上方法应该能够识别出四个灯泡。你觉得呢？

三

用类比和隐喻的方式，来表达一些主题，有“生动性”的优点，也有不精确的缺点。

再次声明，请你务必仅仅将其视为理解和感知的脚手架。‍‍‍‍‍‍‍

让我们回到数学和物理。

1854年，黎曼在哥廷根大学发表的演讲改变了数学和物理学的进程。他引入了一个革命性的概念：高维几何学，推翻了欧几里得几何的传统观念。

（图片来自网络）

在欧几里得几何中，空间是平坦的，二维或三维的，而黎曼发现了空间的弯曲性质，提出可以通过引入更高维度来解释自然界的现象。

黎曼的几何学不仅改变了数学的基础，也为物理学提供了新的工具。

尤其是在1915年，爱因斯坦借助黎曼的几何学，提出了广义相对论，用四维时空的弯曲来解释引力。黎曼的思想启发了后来的科学家，使他们进一步探索更高维的宇宙。

欧几里得几何学认为两点之间的最短距离是直线，而黎曼指出，这个定律只适用于平坦空间。

在弯曲空间中，比如球面上，两点之间的最短路径是曲线。黎曼通过引入“度规张量”这一工具，能够精确描述空间在每一点的弯曲程度。

这一创新让科学家可以用数学来描述任何维度的空间，无论是平坦的还是弯曲的。

更令人惊叹的是，黎曼的理论揭示了“力”可能只是空间几何变形的结果。

比如，当我们在三维空间中感受到引力时，实际上是因为空间在我们感知不到的第四维中发生了褶皱。这一概念为将来用高维几何学统一所有物理定律铺平了道路。

高斯较早前已经提出了平面“书虫”的思想实验，黎曼进一步将其扩充：

如果一张纸上生活着二维生物，把它们生活的纸褶皱之后，它们依然会觉得世界是平的，但当它们在褶皱的纸上运动时，它们就会感到一股看不见的“力”阻止它们沿直线运动。

黎曼几何不仅让爱因斯坦能够理解引力的本质，还让他开始思考，其他的自然力是否也是时空在更高维度中的褶皱结果。

这种思维方式为后来物理学家尝试统一电磁力、弱力和强力奠定了理论基础，并成为现代超弦理论的先声。

黎曼还提出了“黎曼切口”的假设，在这一模型中，两张纸代表两个不同的二维曲面，切口则是这两个曲面之间的通道。

（图片来自《超空间》）

二维的“书虫”在自己的世界里是无法察觉到这个切口的存在的，但如果它无意中进入切口，就会突然出现在另一个曲面上。

这个切口是它们在二维世界中无法理解的，而在更高维度的观察者眼中，这个过程却是可以轻松解释的。

黎曼切口可以看作是后来物理学家提出的“虫洞”概念的早期雏形。虫洞是一种理论上连接不同空间或时空的桥梁，可以让物体穿过极端弯曲的时空区域，在看似瞬间移动到另一个位置，甚至是另一个时空。

在爱因斯坦的广义相对论框架下，黎曼切口的思路进一步发展，成为探索时空结构和多连通空间的一种方式。

物理学家马里特10岁的时候，33岁的父亲就去世了。他一直渴望建造一台时光机器。从物理学的角度看，“虫洞”是实现时光旅行的一种方法。

神秘的时间之箭。

你还记得上面那两个智力题吗？靠温度差别来区分的灯泡和袜子，依然要靠时间来实现。‍‍‍‍‍

温度，热力学，时间，我们似乎隐隐约约能看到玻尔兹曼的身影。

四

在电影《星际穿越》中，导演克里斯托弗·诺兰通过五维空间的设计来表现时间、空间和平行宇宙的概念，尤其在影片结尾，主人公库珀进入的“Tesseract”（超立方体）成为了关键场景之一。

四维的时空，建立在爱因斯坦的理论之上，过去、现在和未来是“平铺”着的。时间是四维生物能够感知到的某种“实体”，就像我们对二维世界生物的某种优势。

电影里的小布兰德博士对此这样解释：“过去是可以穿行的峡谷，未来是可以攀爬的山峰”。

诺兰加入的第五个维度，是平行宇宙的概念。

五维空间不仅包含了四维时空，还包括了不同可能性的存在，反映了量子力学中关于平行宇宙的理论。

这意味着，在五维空间中，可以同时访问不同时间节点和不同的空间状态。

（图片来自网络）

在我们日常的感知中，世界似乎是线性的：我们生活在一个三维的空间中，并经历时间的流逝。

然而，物理学中存在一种更为复杂的理论——如果有第五维度存在，并且这个维度代表的是平行宇宙，那么我们的宇宙可能只是这些平行宇宙中的一个“投影”。

想象一下，所有的量子事件、选择和行为就像掷骰子。

每次掷骰子，骰子会展示一个面，这是我们所感知到的“现实”。但在更高维度的五维空间中，骰子的其他面仍然存在，意味着还有无数可能的结果。

平行宇宙理论认为，每一种可能的量子状态都对应着一个新的宇宙，因此我们当前的宇宙只不过是五维空间中无数可能性之一的“坍缩”结果。

这种理论被称为多世界诠释，它告诉我们，每一次选择和量子事件都可能创造一个平行宇宙。

我们的四维现实——即三维空间加一维时间——是这无数可能性的其中之一。

就像骰子在掷出后展示的某一面一样，我们的宇宙是基于概率选择的，其他可能性虽然存在，但我们无法直接观察到它们。

这为我们提供了一个深刻的视角：我们所体验到的世界，或许只是无数可能世界中的一个，而真正的“全貌”还隐藏在更高维度的神秘之中。

五

人类到底是如何理解这个世界的？

什么叫“看到”？

又有什么可以称为“知道”？

而在休谟看来，“人类心灵中的一切素材，不管是简单的还是复杂的，不管是具体的还是抽象的，都无一例外地来自人的感觉经验。”

他有一段杠精似的惊人陈述：‍‍

实体(substance)观念是从感觉印象得来的呢，还是从反省印象得来的呢？如果实体观念是从我们的感官传给我们的，请问是从哪一个感官传来的，并以什么方式传来的？

如果它是被眼睛所知觉的，那么这个观念必然是一种颜色；如果是被耳朵所知觉，那么它必然是一种声音；如果是被味觉所知觉，那么它必然是一种滋味；其他感官也是如此。

但是我相信，没有人会说：实体是一种颜色，或是一个声音，或是一种滋味。因此实体观念如果确实存在，它必然是从反省印象得来的。但是反省印象归结为情感和情绪，两者之中没有一个能够表象实体。

因此，我们的实体观念，只是一些特殊性质的集合体的观念，而当我们谈论实体或关于实体进行推理时，我们也没有其他的意义。

在“看到”一物时，我们不仅仅是接收光线，还通过经验和知识赋予这个物体意义。

看到一棵树，我们不仅识别出形状和颜色，还通过记忆理解这是一棵树，它可能有着生长、开花、落叶等属性。

“知道”是一种更复杂的认知过程。我们不仅依靠感官“看到”事物，还要通过思维、推理、记忆和反思来理解事物。

知识的获取过程常常基于经验：我们通过观察、思考、学习、互动等方式形成对世界的理解。

然而，这种知识是否真实或完整？

《科学之死》一书对此解读道：

苹果很常见，很多人都爱吃，但苹果是什么东西呢？首先，从感官经验的角度，我们可以说苹果是红的、圆的、甜的、脆的、硬的、能解渴的、能充饥的等等；

其次，除此之外，人们一般还会认为，有一个实体性的东西承载着所有感官告诉我们的这些性质，而这个实体性的东西才是真正的“苹果”。

休谟的意思是，事实上人们对苹果的认识只能限于上述的第一个阶段，至于说是不是有一个实体性的“苹果”存在，人们是一无所知的，因为这个实体没有在人的感官当中引起任何印象。

经验主义的另一位代表人物洛克提出，知识的来源有两种：

外部感官经验（通过五感获取的信息）和内在反思经验（对心灵自身活动的反思）。

感官经验帮助我们接触外部世界的事物；

反思经验则是通过观察我们自己的思维过程来理解抽象概念。

为了解释我们如何通过感知理解物质，洛克提出了物质的第一性质和第二性质的区分。

第一性质：这些是物体固有的属性，它们独立于观察者的感知存在。无论有没有人感知，这些性质都客观存在，如物体的形状、大小、坚硬度、重量、密度等。

洛克认为，这些性质是物体本身构成的一部分，任何物质都具有这些性质。

第二性质：这些性质是物体在与感知者互动时产生的，它们依赖于观察者的感官才能存在，如颜色、味道、气味和声音等。

洛克认为，第二性质并不直接存在于物体中，而是通过第一性质的作用在感官中产生的感觉。例如，颜色并不是物体本身的固有属性，而是光线与物体表面的相互作用在我们眼中产生的结果。

人类如何识别一个苹果？

按照洛克的理论，当我们面对一个苹果时，我们的感官通过接触苹果的不同性质来认识它。

第一性质：形状，重量，硬度等等；

第二性质：味道，口感，气味，甚至颜色，等等。

（图片来自网络）

以我们“早熟”的哲学习惯，看到洛克和休谟的观点，会感觉非常幼稚，极其啰嗦，这有啥用？‍‍‍‍‍‍

的确有用。

接下来，我们看一下，AI如何识别出一个水果。

六

延续洛克朴素而直白的思想，我们识别一个苹果，是根据其性质，将其与别的物体、别的水果区别开来，这是一个分类的过程。‍

洛克和休谟杠精似的哲学背后，是对因果论的怀疑，是“人类知道自己不知道”的关键一步。‍‍‍‍‍

尽管被休谟们斩断了因果的“必然”幻觉，但世界的推理并没有因此而终止。捍卫上帝这一最大“因”的虔诚教士贝叶斯，用自己的数学天赋造出了一架悬梯。‍‍‍

现在，假设我们造出了一个初级的机器人，我们如何教会它识别水果？‍

这个机器人没有任何人类的常识和经验，也因此没有任何“我以为我知道的幻觉”。

它只能像洛克所说的那样，如同一张白纸，一点点学习。‍

现在，我们把一个未知水果放在它面前，已知它只能知道三个基本特征：

颜色是黄的，味道是甜的，形状是长的。‍‍

这个问题对人类来说很简单。可是对于机器智能，或者是对于一个初生的孩子，都是个难题。不要嘲笑，在那些我们并不熟知的领域，我们还不如这个初级的机器人。‍‍‍‍‍‍‍

黄色的可能是任何一种水果；

甜味儿是个很主观的概念，有些人觉得酸甜就不是甜；

长是一个相对概念，还是绝对概念？‍

总之，一切都很模糊，条件十分不充分，但我们必须做出判断。--这和我们的现实世界非常像。‍‍‍‍‍

洛克和休谟对人类的提醒是，别认为那些显而易见的东西就是真相，别以为那些理所当然的东西就是因果分明。‍‍‍

所以，本质而言，机器人的任务，是在信息模糊的情况下，去猜测该水果最有可能是哪一种？

所谓可能，就是概率。

首先，我们要有最基本的信息，对人类而言是对“第一性质”和“第二性质”等客观和主观特征的观察与统计，对机器人而言则是获取数据和训练数据。‍

（以下案例由网络上未署名文章改写）

假设我们收集了1000个水果的数据，这些水果包括苹果、香蕉和梨子。

每个水果都有三个特征：形状（是否长）、味道（是否甜）、颜色（是否黄）。

现在，我们要用贝叶斯分类器来判断一个新水果，它的特征是“长、甜、黄”。

（图片来自网络）

从数据中，我们知道：

50%的水果是香蕉，30%是苹果，20%是梨子。
80%的香蕉是长的，70%是甜的，90%是黄的。
苹果中没有长的，50%是甜的，100%是黄的。
50%的梨子是长的，75%是甜的，25%是黄的。

现在我们使用贝叶斯公式来计算这个新水果的可能性。

香蕉的概率：我们计算“长、甜、黄”的条件下，水果是香蕉的概率。
P(长甜黄|香蕉) = 0.8 * 0.7 * 0.9 = 0.504
P(香蕉|长甜黄) = 0.504 * 0.5 = 0.252
苹果的概率：苹果没有长的，所以概率为0。
P(长甜黄|苹果) = 0 * 0.5 * 1 = 0
P(苹果|长甜黄) = 0
梨子的概率：
P(长甜黄|梨子) = 0.5 * 0.75 * 0.25 = 0.09375
P(梨子|长甜黄) = 0.09375 * 0.2 = 0.01875

接着，计算分母P(长甜黄)：

P(长甜黄) = 0.252 + 0 + 0.01875 = 0.27075

最后计算后验概率：

P(香蕉|长甜黄) = 0.252 / 0.27075 ≈ 93%
P(梨子|长甜黄) = 0.01875 / 0.27075 ≈ 7%
P(苹果|长甜黄) = 0

因此，这个水果有93%的可能性是香蕉，7%的可能性是梨子，而不可能是苹果。

在这个过程中，每一个特征（如颜色、形状、味道）都可以看作是一个维度，而贝叶斯分类器通过将这些维度结合起来，从不同的角度对水果进行推断和分类。

这种方法本质上是对多维信息的整合，通过各个维度上的信息贡献来计算某种结论出现的概率。

机器人费了很大力气，才计算出一个概率，而人类也许不需要一秒钟就能够识别。‍‍‍‍‍‍‍

然而，就像一个孩子学下棋之处显得很傻，但是可能只需要三个月就能够战胜下了三十年臭棋的成年人。

洛克是对的。但是，他的怀疑，并不影响人类基于不完全信息来推断未来。

机器通过算法，例如贝叶斯推理，模拟了人类的推理过程，经验主义的理念在今天的数字化时代展现出强大的生命力和影响力。

洛克和休谟的深刻思考，尽管在当时或许被视为繁琐的哲学辩论，却为现代人工智能的核心逻辑奠定了基础。

经验主义并没有止步于哲学课堂，而是通过现代技术的实现，重新在硅谷和全球科技前沿焕发出新的火焰。

七

一切皆可计算

有时信仰束缚人的思想，有时信仰令思考者更加狂放。‍

对上帝的坚信，令牛顿在“解释宇宙”的时候，不会因为因果链条的某些缺失而停顿。‍‍

既然有“上帝”设计一切，他只管去探寻设计的规则就好了。引力到底是如何产生的？与距离的平方成反比到底是个什么东东？牛顿绝不纠结于探索路途中的“无知”，亦不因此陷入虚无主义。‍‍‍‍‍

爱因斯坦是未知论者，所以他要借助于斯宾诺莎的“万物之神”的力量。

而辛顿则有赖于“差异化的信仰”，用一生去赌相当长时间内毫无希望的神经网络。

莱布尼兹更复杂一些。他相信这个世界是所有可能世界中最好的一个，但什么是“所有可能的世界”？难道上帝在扔骰子吗？难道已知的宇宙还有另外的选项吗？

一方面相信“神的目的”，另外一方面，莱布尼兹则相信机械论的宇宙，并且这个宇宙是由不可再分的“单子”组成的。而令所有这些彼此不受影响的单子，经由上帝的算法，如钟表般稳妥地运行着。

理性主义的莱布尼兹作为十七世纪的全才，他发明了微积分，提出了二进制，制造出世界上第一台能做加减乘除的计算机器。

莱布尼兹坚信，能够建立起一种普遍的方法，“把一切正确的推理归结为一种计算”，这一思想成为现代计算机科学和人工智能的远祖，预示了“一切皆可计算”的未来。

离散与组合‍

如同原子论或者微积分的思想，计算机科学和人工智能通过将复杂问题拆解为简单的、低维的元素（0和1），然后再通过组合形成多维空间来解决更复杂的问题。

计算机通过将一切信息，无论是文本、图像、声音还是视频，都拆解为0和1的序列。

每一个0或1代表一个比特位，计算机通过这些比特位的组合，可以表示任何复杂的数据或结构。

这种拆解和组合的能力，是计算机处理复杂问题的核心。

就像在数学的微积分中，连续的函数被分解成无数个小的微小变化（微分），从而能够精确地理解和计算变化的累积效果，计算机科学的核心也是通过二进制（0和1）来表示离散信息，并进行高效的处理。

以图像数据为例，计算机将图像的每一个像素拆解为数值表示，其中每个像素的颜色信息通常以RGB通道表示。

对于一张224x224的彩色图像，它的表示形式为一个三维张量：224 x 224 x 3，其中：

224x224是图像的高度和宽度，表示每个像素的空间位置。
**3个通道（RGB）**代表每个像素的颜色强度（红、绿、蓝）。

每个像素的颜色值本质上也是由0和1组成的二进制数字，这些数字通过不同的强度值（通常是0到255的范围）来编码颜色。

如上，这是将一维的比特组合成更高维的空间，从而能精确表示颜色、位置等信息。

这种构建方式类似于通过多维度理解现实问题，AI也能够通过维度的扩展与降维操作，更深入地解析复杂的现实世界。维度是处理复杂问题的关键工具。

分层处理机制‍‍‍‍‍‍‍

人工智能的起源可以追溯到公元前400年，哲学家如柏拉图和亚里士多德提出，大脑在某种程度上类似于一台机器，利用内部语言编码知识，通过逻辑推理选择行动，这为人工智能的可行性奠定了思想基础。

此后，数学家们引入了运算逻辑和概率推理的工具，进一步推动了对计算和算法的理解。

20世纪中期，AI开始从理论走向实践，随着技术进步，AI从最初的基于布尔逻辑的推理，逐渐转向概率推理和数据驱动的机器学习。

这一转变显著提升了AI的复杂问题处理能力，推动了实际系统的功能改进，并与其他学科深度融合，使人工智能逐渐成熟为一个多学科交汇的领域。

（以上概述参考了斯图尔特.罗素的总结。）

在此过程中，深度学习之父辛顿扮演了重要角色。‍‍‍‍‍

辛顿此生对“神经网络”有一种偏执狂般的投入。这个过程漫长而跌宕。‍‍‍‍‍‍‍‍

20世纪中期，神经生物学家大卫·休伯尔和托斯坦·威泽尔通过实验揭示了大脑视觉系统的分层处理机制：

人类认知过程被视为一种分层迭代、逐步抽象的过程。

辛顿受到的启发是：大脑通过分层处理逐步提取信息，人工神经网络也可以模仿这一过程。

他意识到，神经网络可以像大脑那样，使用多层结构从低级特征（如像素或边缘）到高级特征（如对象或面部识别）逐层抽象。

辛顿在1986年提出的误差反向传播算法，使多层网络的训练成为可能，但其真正突破是在2006年，他通过“逐层预训练”有效地克服了深层神经网络训练的困难。

深度学习的核心优势之一，是自动化的分层特征提取。

继续我们自由的类比，深度学习可以自己发现维度，自己定义维度，甚至不用对人解释--有些也解释不了。‍‍‍‍

传统的机器学习依赖人工定义和选择特征，而深度学习通过多层神经网络逐层自动学习，提取数据中的高层次特征。

这一过程不需要人为介入，可以从低级信息（如像素、声音波形）中逐步提取出更抽象的特征（如物体、语义）。这种自动化极大减少了特征工程的复杂性。

这像是一个逐步升维、从局部到全局的理解过程。

每一层的神经网络通过对低维度信息的处理和组合，提取出更高维的特征，最终形成对数据的全面认知。

正如爬山、解谜、搭建乐高或绘画的过程一样，深度学习通过分层抽象，让计算机能够自动从简单到复杂、从具体到抽象地理解世界。

高维向量‍‍

在机器学习和神经网络中，维度通常指的是特征空间的大小。

我们输入的每一个数据点（无论是图像、文本还是其他形式的输入）都在一个高维空间中表示。

类似于毒酒问题中将100桶酒用7个二进制位表示，在神经网络中，模型将复杂的输入数据映射到一个更紧凑的表示空间中，确保通过最低的维度表示出最多的信息。

我们来通过一个实际的简单例子，描述大模型和Transformer的工作原理。

假设我们要用一个Transformer模型来完成一个常见任务：翻译一句简单的英文句子到中文。句子是：“I love cats.”

1. 输入的准备：将句子转化为向量

Transformer模型不能直接处理文字，它需要将输入的句子“I love cats.”转化为向量（数字形式）。这一过程称为词嵌入（Word Embedding）。

词嵌入的过程：每个词都会被转换成一个高维向量。例如，假设模型使用768维的向量，那么每个词都会用一个768维的向量来表示。这些向量不仅仅是随机数字，它们包含了词的语义信息。例如，“love”和“like”在语义上相近，它们的向量可能相似。

因此，句子“I love cats.”被转换为以下向量序列：

I → [0.5, 0.2, ... , 0.8]（768维向量）
love → [0.3, 0.9, ... , 0.1]（768维向量）
cats → [0.7, 0.4, ... , 0.2]（768维向量）

通过将每个词转换成高维向量，模型可以更好地表示每个词的复杂含义和它与其他词之间的关系。

这就是升维思考的第一步：将简单的文字映射到更高维度的空间，从而捕捉它们的复杂语义和语境信息。

2. Transformer的自注意力机制

接下来，Transformer模型使用其核心机制——多头自注意力机制来处理这个向量序列。

自注意力机制帮助模型理解每个词与句子中其他词的关系，并为每个词在句子中的重要性分配不同的权重。

自注意力机制会为每个词计算它与句子中其他词的关系。例如：
通过这种关系的计算，模型可以更好地理解整个句子的结构和含义。
- “I”和“love”有关系（主语和谓语）。
- “love”和“cats”有关系（动词和宾语）。
多头自注意力机制：每个注意力头关注句子中的不同关系。例如：
- 一个注意力头可能专注于“love”和“cats”之间的关系。
- 另一个注意力头可能专注于句子的整体结构，比如“主语—动词—宾语”的模式。

这些注意力头会从不同角度理解句子的每个词，使模型能够生成一个更全面的表示。

类比一下：我们可以将注意力机制类比为毒酒问题中的侍卫，每个侍卫负责检查一个特定的桶。

每个注意力头就像一个侍卫，负责检查输入中的特定模式。最终，模型通过多个“头”捕捉到句子中的丰富信息，类似于侍卫通过喝酒推断哪个是毒酒。

3. 基于概率的输出生成

输出生成是基于概率分布的。在每一步翻译过程中，模型并不是直接生成一个确定的翻译，而是计算每个可能翻译的概率分布，并选择概率最高的词作为输出。

例如，当模型要翻译“love”时，它会计算多个可能的翻译，并生成以下概率分布：
模型会选择概率最高的词“爱”作为翻译。
- “爱” → 85%的概率
- “喜欢” → 10%的概率
- 其他翻译 → 5%的概率

最后，模型会输出句子“我爱猫”。

概括而言，大模型之所以能够在多个任务上表现出色，主要是因为它们通过大量数据学习到了丰富的高维表示。

这些表示能够很好地捕捉输入数据中的模式和复杂关系。

相比于传统模型，大模型的高维表示具有更好的泛化能力，能够在不同任务之间迁移学习。

为什么大语言模型像最聪明的人那些，能够学习不同领域的知识，并且可以自由迁移？‍‍‍‍‍‍‍

辛顿的解释非常有趣：

这些大语言模型所做的是寻找共同的结构，通过发现共同结构，它们可以用更有效的方式对事物进行编码。

让我给你一个例子，如果你问GPT-4"为什么堆肥堆和原子弹类似"，大多数人都无法回答，他们认为堆肥堆和原子弹是完全不同的事物。

但GPT-4会告诉你，虽然能量和时间尺度不同，但它们都涉及链式反应，当堆肥堆越热就会发热越快，当原子弹产生的中子越多，产生的中子就越快，所以它们其实都是链式反应的形式。

许多人觉得大模型不过是在拼凑人类已有的知识，辛顿认为这是错误的。对此我深感认同。我最喜欢向ChatGPT问的问题，经常与打比方有关。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

现实世界中，许多人假装自己是聪明人，但是有两点最难伪装：打比方的能力，和幽默感。

辛顿认为大模型能够理解知识的本质（至少是从人类角度定义的“本质”），并且把“这种理解压缩到了它的权重参数中”。

多模态

尽管语言模型已经表现出相当的空间推理能力，但引入多模态处理将使这些模型获得更深层次的理解和推理能力。

多模态模型整合了来自不同感官的信息源——如图像、视频、声音、甚至机器人操作——这使得模型能够不仅仅依赖语言来学习世界。

多模态模型使得机器可以像人类一样，在更复杂的“维度”中进行操作。‍

例如，当模型能够通过视觉看到一个物体，并通过模拟或物理操作与该物体进行交互，它就会更直观地理解物体之间的空间关系和物理规律。

这种转变相当于将AI从一个符号处理的世界提升到了一个接触现实的高维世界，从而让AI更好地理解物理世界中那些难以用语言描述的复杂概念。

计算既是工具，也是理解世界的视角。

随着AI技术的不断发展，我们不仅在追求更强大的计算能力，更是在探索“何为智能”的本质问题。

从莱布尼兹的普遍计算设想，到当下的大模型和多模态，世界似乎正在逼近一个神秘的边界——那就是对世界的全面认知，这认知可能不仅仅来自算法，更或许是人类与机器在复杂维度中的共同演化与创造。

那么，人类正在逼近“上帝的算法”吗？

八

以上“五、六、七”三节，我们探讨了人类如何理解世界以及何谓“看到”和“知道”。

休谟通过怀疑因果关系和实体的观念，提出了经验主义的核心观点：

我们所有的知识都来自于感官经验。

人类在理解世界时，实际上是通过感官所获取的印象，将这些印象进行组合、记忆和反思，从而形成对事物的认知。

而洛克则进一步区分了第一性质（物体的固有属性）和第二性质（通过感官与物体交互产生的属性），为我们提供了一个系统的框架，解释了人类如何通过经验识别和分类物体。

这种基于经验和感知的认知方式，似乎为现代人工智能提供了某种隐喻——机器通过算法，尤其是大模型和神经网络，也在执行类似的感知任务。

机器学习模型不具备人类经验的复杂性，但它们通过多维特征的整合和分类，能够在模糊信息中找到概率上的最佳解。

这种“经验”不再依赖于人类的主观感受，而是通过庞大的数据和概率统计进行决策。

随着大模型的出现，人工智能通过比特世界中的多维计算，在某种程度上复制了人类从经验中学习的过程。

就像我们在面对一个苹果时，通过颜色、形状、味道等特征将其归类为一种特定的水果，机器也通过将复杂信息降维为高维向量来完成分类和推理。

贝叶斯推理等技术帮助机器在不确定性中进行推断，模拟了人类在因果关系模糊时依赖概率推理的方式。

然而，大模型带来的不仅仅是经验的复制，它通过升维思考进入了更高层次的智能探索。

大模型能够通过多层神经网络提取出超越人类感知的特征，不仅是在我们所理解的空间内“看到”世界，还能在我们无法直接感知的高维空间中进行推理和决策。

正如我们前面所讨论的，AI通过“高维空间”在信息上实现了穿墙破壁，仿佛成为了能够超越感官局限的存在。

似乎只有“神”才可以如此。

从最初的人类经验主义出发，我们通过大模型进入了一个新的认知维度，也标志着人类对理解世界的新方式：

我们不仅依赖感官经验，通过数学和定律，经由推理和实验，还借助AI来拓展我们的认知边界，进入那些我们无法直观感知的高维领域。

AI能够构建出“上帝的算法”吗？

或许，并非如此简单。

尽管大模型能够通过高维向量解析复杂的现实，捕捉无数的特征和模式，甚至超越人类的感知范围，但它仍然受限于我们所提供的数据和算法规则。

我们所逼近的，并非上帝的视角，而是人类所能构建的最复杂、最精确的理解工具。

在不断的升维过程中，我们确实拥有了窥见更多维度的能力，但真正的“上帝算法”或许仍然超越我们所能触及的范围。

我们依然处于对宇宙深层次奥秘的探索阶段。通过AI和大模型，我们能够在多维空间中捕捉到更多的细节，重点也许不是找到终极答案，而是维度的突破。

我个人的好奇之处是：

大模型以及之后的AI，是帮助人类完成爱因斯坦的一样的宇宙认知革命，还是说我们不再需要人类的知识结构和因果推理？

毕竟，爱因斯坦是一位坚定的因果信徒。并非是他不接受概率化的方法，而是不相信上帝只是在扔骰子。即使是扔骰子，那是一颗什么样的骰子？

即使是今天，大部分也无法理解爱因斯坦的相对论。

在相对论的框架中，爱因斯坦提出物质不仅能影响空间，还能重塑四维时空。

《欢乐数学之疯狂微积分》里有一个形象的比喻：

太阳并不像盒子里的保龄球那样静止不动，而是像床垫上的保龄球，压在织物上，扭曲了周围的时空区域。因此，当一颗行星绕太阳运行，或一个苹果朝地球的方向坠落时，它们并不会陷入某种牛顿引力无法解释的痛苦之中，只是在沿着阻力最小的路径穿过一个弯曲的四维空间而已。

对此，物理学家约翰·惠勒总结道：

“物质告诉时空该如何弯曲，而弯曲的空间则告诉物质该如何运动。”

也许，我们会用一种混合了碳基生物和硅基生物智慧优势的模式，继续扩展地球文明智慧的边界。‍‍‍‍‍‍‍‍

一个简单而生动的证据是：

理论上，一百万只猴子胡乱敲打键盘，一定有一只能够创作出莎士比亚的剧作。但是，这个时间却要比宇宙的生命还要长。‍‍‍‍‍‍‍‍‍‍

那么，为什么地球上会出现一个叫莎士比亚的人，创作出那么多剧作？

我的这个思想实验，一定会有概率上的先后设定问题。即使如此，下面的答案依然是有利于人类的：‍

因为莎士比亚并不是一个在键盘前随机敲打的猴子，他是基于全体人类的一个知识模型来创作的，包括语言，符号，传说......甚至可能还夹杂有尼安德特人在篝火旁的故事。所有的在地球上存活的人，都从概率的角度，帮助了一个叫莎士比亚的人消除了杂乱，100%地创作出伟大的作品。‍‍‍‍‍‍‍

也许人类的故事才刚刚开始。

在这一进程中，许多时候，维度的突破可能会是关键。

从维度的角度，我们更容易理解爱因斯坦的那句名言：

我们不能用制造问题时同一水平的思维来解决问题。

（The significant problems we face cannot be solved at the same level of thinking we were at when we created them.）‍

而所谓更高的水平，往往是基于维度的。

九

关于思维或者认知的维度，我不打算做一些老生常谈的陈述。‍‍

我想谈及三个关键词：

厚薄、Taste、随机。

厚薄

围棋是最复杂的游戏之一，规则却很简单，在一个19✖️19的二维格子上，演绎出比宇宙间所有原子数量还要多的变化。‍‍‍

一个围棋高手最厉害的地方是什么？

他能够从更高维度去理解一个局面。

20世纪最伟大的两个棋手之一吴清源，在晚年提出了“六合”围棋。‍‍‍‍‍‍‍‍

所谓“六合”，指的是四方（东南西北）和天地（上下）。

吴清源认为：棋的一子一子必须和所有的方面相和谐，追求的是恰到好处地处于当时的位置。

不止是重视中腹，六合之棋的“天地”之维度，超出了棋盘平面的二维世界。

在一个仅有二维的棋盘上，哪有什么天地呢？‍‍‍

他解释说：子是有厚度和重量的。

所谓棋的厚与薄，外势与实力，实质上与时间有关。

围棋很有趣--由于棋子并不具备可移动性（除非被吃），围棋的过去和现在是被压缩在一个坐标化的棋盘上的。

我在人生算法里，说人生像是很多个切片串起来的。

围棋则像是将这些切片层层叠放在一起。

这就是“厚”和“薄”。

理解并区隔围棋的厚势与实利，与许多重要的智慧“同源”。‍‍‍

20世纪最伟大的两个棋手之二李昌镐，有一个被广泛误读的名言：‍‍‍‍‍

我的每手棋只追求51%的效率。‍‍‍‍‍

也许这个话题值得另外写一篇。对此我的一个简单解构是：‍‍‍‍‍‍‍

假如绿皮火车和高铁一样价格，你选哪一个？

除非你要体验一下新奇或者怀旧，当然是高铁。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

那么，假如有一手棋的效率是51%，另一手棋的效率是81%，如果代价是一样的，为什么要选择51%的，而不是81%的？‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

对于一个职业棋手而言，每一盘棋的目标是非常明确的：

令“比对手至少领先半目”的结果概率最大化。‍‍‍

李昌镐也不例外。‍‍‍

他所说的51%，其实是关于局部最优和全剧最优的取舍：

某一手棋A，就局部效率而言，是51%，全局效率是81%；‍‍‍‍‍‍‍‍‍‍

另一手棋A，就局部效率而言，是81%，全局效率是71%。‍

那么，当然是选择51%的A。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

李昌镐尤其擅长在领先的局面下，迅速缩短战线，把棋盘“变小”。他会主动走一些看起来不是最优的招法，但是却能消除掉那些不确定性因素，从而把优势变成了胜势。‍‍‍‍

吴清源和李昌镐的秘密，都与爱因斯坦的四维时空宇宙观有相通之处--‍‍‍‍‍‍‍‍

在围棋这样一个基于二围棋盘的游戏中，他们比对手有着维度之上的碾压优势。‍‍‍‍‍‍‍

这也是天才棋手和厉害棋手之间的最大区别所在。‍‍‍

Taste‍‍

杨振宁曾在纽约州立大学石溪分校遇到一个15岁的学生，这个孩子非常聪明，轻松地回答了他提出的几个量子力学问题。

杨振宁接着问他：这些量子力学的问题，哪一个你觉得是妙的？

然而，他却讲不出来。“对他讲起来，整个量子力学就像是茫茫一片。”

杨振宁对他的看法是：尽管他吸收了很多东西，可是他没有发展成一个Taste。

什么是Taste？似乎模糊。

还是让杨振宁来解释吧：

“......学一个东西不只是要学到一些知识，学到一些技术上面的特别的方法，而是更要对他的意义有一些了解，有一些欣赏。

假如一个人在学了量子力学以后，他不觉得其中有的东西是重要的，有的东西是美妙的，有的东西是值得跟别人辩论得面红耳赤而不放手的，那我觉得他对这个东西并没有学进去。“

杨振宁说在西南联大七年，对他一生最重要的影响，是对整个物理学的判断，已有自己的Taste。

接下来这些内容稍显多余，但是对于教育的启示太大了：

杨振宁自幼喜爱观察自然，表现出强烈的爱美之心与好奇心。
父亲是数学家，杨振宁从小接触数学书籍，打下了扎实基础。
在西南联大期间，受到名师教授数学、物理及中文阅读与写作。
杨振宁的学术启蒙得益于吴大猷和王竹溪两位导师，分别引导他进入对称原理与统计力学领域。

所以，Taste像是一个人认知世界的多元思维中的高维鸟瞰，未知世界里隐秘的关联--哪怕只是关联的投影。‍‍‍‍‍‍‍‍‍

我们可以说，乔布斯是个很有Taste的人，这不是指艺术上的Taste，或是品味上的Taste，而是他能够横跨科技、艺术、商业，来做出一个超越时间的判断。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

前面说的吴清源的对围棋的天才感觉，也是一种Taste。‍‍‍‍

也许每个人在获取知识和发展认知的过程中，都是在构建和训练一个自己的大模型。‍‍‍

所谓的Taste，就是在”茫茫一片“的神经网络之中，形成的某些石破天惊的重要连接。‍‍

这和Transformer倒也有可以类比之处。‍

Transformer通过自注意力机制，允许模型在不同维度上“看到”数据之间的相关性，提取出最关键的连接。

同样地，Taste也是通过对信息的深刻理解，能够超越表面，找到那些石破天惊的关键连接。

因此，Taste不仅是一种对知识的理解，更是一种超越时间和空间、对事物本质的高维度判断。

人们说，大模型时代，一个人重要的能力是提问。

然而，如果没有Taste，不可能问出了不起的问题。‍

最近一段时间，有些人鼓吹硬科技，重理轻文。可如杨振宁所说，如果没有Taste，而总是追求有用，可能很难走得远。‍‍‍‍‍‍‍‍

爱因斯坦也有类似的观点：

“在一定程度上而言，科学家对自然深层次美的领悟和热爱，以及所具备的形而上的审美判断力决定了其研究所能企及的高度。”

这一段落所说的Taste，和上一段落说的厚薄，都像是某种“直觉”。用爱因斯坦的话来说：

“真正有价值的是直觉。在探索的道路之上，智力作用不大。”

这种直觉，也是他眼中“由哲学的洞察力所创造的独立性”，能够帮助科学家避免陷入“见树不见林”，爱因斯坦认为这“正是一个工匠或专家，与一个真正的真理追寻者之间，最大的区别。”

随机

看起来，不管是厚薄，还是Taste，都是某种只可意会不能言传的东西。‍‍‍

那么，机器智能是如何感知围棋的“厚薄”的？早在2016年，阿尔法狗已经碾压了人类自以为无法被超越的“灵性”。‍‍‍

AI可以拥有杨振宁所说的那种Taste吗？

起初，计算机像是一种纯粹的基于逻辑推理的机器，直至不确定性和随机性被引入。‍‍‍‍‍‍

辛顿的玻尔兹曼机代表了人工智能发展中的一次关键突破。

最早的神经网络，如霍普菲尔德网络，更多是基于确定性原理来处理信息，擅长记忆和补全任务。

它通过逐步最小化能量进入“能量井”，达到记忆模式的重现。

然而，这类网络的局限在于，它们只能处理已经学习过的模式，而无法创造新的模式，也无法理解数据的内在结构。

辛顿的贡献在于引入了不确定性和随机性。

他提出的玻尔兹曼机通过模拟物理系统中粒子的随机运动，捕捉数据的概率分布，从而生成新的数据。

这个系统不再总是选择最低能量状态，而是根据波尔兹曼分布，概率性地做出决定。

这一创新让机器学习模型从固定的逻辑跳跃到灵活的随机领域，就像爵士乐手能够在固定的音乐结构中即兴创作。

在物理学中，路德维希·波尔兹曼通过研究气体分子运动中的能量分布，提出了著名的波尔兹曼分布。

他发现，物理系统中低能量状态的粒子比高能量状态的粒子出现的概率更大，这种概率与粒子的能量成指数关系。

简单来说，系统中更稳定的状态出现的概率更大，而高能量状态虽然可能出现，但频率较低。

这一观点将随机性带入了物理学核心概念。波尔兹曼解释了为什么在微观层面上，粒子之间的碰撞会导致能量的分布不均匀，进一步揭示了宏观系统中的不确定性。

这为量子力学中的概率解释奠定了基础。量子世界中的每个事件都遵循某种概率规律，精确预测每个单独事件几乎不可能，但可以通过概率统计对整体行为进行推测。

这种随机性也渗透到了社会和金融领域。塔勒布的第一本书就叫《随机漫步的傻瓜》。

在人生中，随机性也扮演着关键角色。正如人类无法预知未来的一切细节，我们的命运也往往受到各种随机因素的影响。

真正的智慧不是消除不确定性，而是在升维思考中拥抱随机性，借助概率找到那个最佳行动方案。

《人工智能：现代方法》写到：

“按照常规的理解，逻辑要求关于世界的认知是确定的，而实际上这很难实现......概率(probability)论填补了这一鸿沟，允许我们在掌握不确定信息的情况下进行严格的推理。”

也许随机性带来了混乱，带来了不安，但是，随机性也是生命之源，是能量之本吗，甚至也是时间的秘密。‍

假如热力学第二定律决定了孤立系统会自发地朝着最大熵状态演化，为什么地球上会出现生命？为什么人的大脑能够以如此复杂的机制去思考宇宙？‍‍‍‍‍‍‍

玻尔兹曼的解释是：

我们观测到的低熵世界来源于高熵宇宙的随机涨落。

大的涨落可以造成熵很低的状态，概率也很低，但在宇宙广阔尺度下仍然会发生，而我们自身的存在也是来源于这种涨落带来的低熵世界。

一个奇怪的演绎是：如果宇宙可以通过某种随机波动从虚无中冒出来，那么相比之下，更简单的东西，比如一个大脑，随机出现的可能性会更大。

想象一下，你正坐在沙发上刷这篇文章，感觉一切都很真实。

可根据“玻尔兹曼大脑”的假设，你有可能根本不在客厅里，也没有在看电影。你只是一个孤立的大脑，突然从虚无中“蹦”出来，带着完整的记忆和感知。

尽管这个大脑只会存在极短的时间，然后很快消失，但在那短暂的一瞬间，它坚信自己正处于一个完整的、真实的世界里——正在和舒适的沙发上享受本文的摧残，然而这一切只是大脑的幻觉。

另外一个悬念是：随机涨落中生成的人类，有机会更长久地避开熵增定律，逃离死寂的命运，去宇宙深处探寻秘密吗？‍‍‍‍‍‍‍‍‍

十

请AI帮我为本文总结出10条有价值的思考工具和行动指南--虽然有点儿多余。

1、升维思考：更高维度和多维度分析

在遇到复杂问题时，引入额外的维度（如时间、温度、空间）帮助你从多个角度进行分析。就像在毒酒问题中从二维升到三维，再到“七维”，增加维度可以发现更多的信息和解决方法。

2、降维行动：全局压缩与奥卡姆剃刀

在面对复杂问题时，降维行动不仅是简化思维，而是基于对全局的深刻理解，将冗余信息压缩，保留最核心的要素。

就像奥卡姆剃刀的原则——去除不必要的假设，选择最简洁的路径。

通过全局的思考做出局部的行动决策，确保简化后的方案依然有效并且精准，避免因过度复杂而拖延或增加不必要的风险。

3、成为有Taste的人：培养独特的判断力

通过积累知识、体验和反思，逐步建立对事物的“感觉”，培养你自己的Taste。‍

Taste 是判断力的高维版本，能够帮助你迅速分辨重要信息，提升你的洞察力和决策效率。

4、概率思维：接受不确定性并优化决策

现实中常存在不确定性，采用概率思维可以帮助你在不确定中找到最优方案。通过贝叶斯推理或随机策略，训练自己根据有限信息做出合理的推断，并拥抱不确定性。

5、训练你大脑的大模型：持续的权重更新

在深度学习中，权重更新通过反向传播不断调整模型，使其表现越来越好。

类似地，我们在生活中的每一次尝试、成功或失败，都可以视为对自我权重的“更新”，通过不断反思和调整行为策略，优化自己。

将每一次失败视为反向传播的反馈，不断调整你的思维和行动模式。以成长为目标，注重逐步优化，而不是寻求一次性的成功。

6、拥抱随机性：把握你的概率权‍‍

利用变化中的机会随机性不仅是混乱的来源，也是机遇的来源。

在你的工作和生活中，适当引入随机性的概念，在多种可能性中大胆尝试，利用“涨落”带来的突破，找到隐藏的解决方案。

7、建立人生的估值函数：以终局目标为导向采取行动

在行动时，不要追求最完美的选择，减少不必要的思维复杂性。类似于李昌镐在领先时缩短战线的做法，锁定目标后迅速行动，避免过度优化带来的拖延。

8、时间维度利用：加入时间因素来解决问题

在现实世界里，总是可以看到但又被忽略的，是时间。

长期主义，必须将时间和空间整合成一个系统。

通过观察事物在时间上的变化来做出判断，将时间因素融入决策，提升长远的判断力。

9、可操作的二进制思维：把所有复杂难题简化为二选一

学习二进制的思维模式，帮助你在复杂情况下简化决策。通过将问题拆解为“是/否”、“0/1”形式，快速找到核心点，这种思维方式有助于提升处理复杂问题的效率。

10、提问的艺术：用高维问题打开局面

大模型时代，人类最强的能力是提问。培养提出优质问题的能力。让AI帮助你在探索过程中找到突破点。

最后

也许你还记得本文以盲人的难题开头，请允许我用盲人的故事结尾。‍‍‍‍‍

盲人失去了观察这个世界最重要的维度之一：视觉。这是普通人无法理解的沉重和不公。‍

而有一位盲人不仅失去了视力，还失去了听力。‍‍

一个人处在这样一个黑暗的、无声的世界里，该如何活下去？

我想分享的故事的主角是海伦·亚当斯·凯勒，她在19个月大的一次疾病中失去了视力和听力。

1924年2月1日，纽约的WEAF广播电台播出了纽约交响乐团现场演奏的贝多芬第九交响曲。

海伦·凯勒在家里“听”了这场音乐会。如下图：

后来她写信给纽约爱乐，分享了自己的体验。以下是该信。‍‍‍‍‍‍‍‍‍

（中文翻译来自网络。）

亲爱的朋友们：

虽然我既瞎且聋，我仍然怀着欢跃之情告诉你们：昨晚我度过一段光辉灿烂的时光，靠着收音机聆听了贝多芬的《第九交响曲》。

我并不是说像其他人一样“听到”音乐；我也不知道是否能让你们了解，我如何能从交响曲得到快乐。这连我自己都惊讶不已。

我早已从杂志上读到收音机带给盲者的幸福：它能带领看不见的人到任何地方去。

我很高兴知道盲者获得了新的乐趣来源；但我从未梦想能得到和他们一样的快乐。

昨晚，当家人聆听你们精彩的演出这不朽的交响曲时，有人建议我把手放在收音机上，看看我能不能感受到任何各式各样的震动。

他旋开收音机的喇叭盖，于是我轻轻碰触敏感的震动膜。我惊奇地发现我能感受到的不只是震动，而且是充满热情的节奏、以及音乐的悸动和涌荡！发自各种不同乐器的震动交缠并融合在一起，使我陶醉不已。

我能确切分辨短号、急切的鼓声、低音的中提琴和优雅合奏的小提琴。当小提琴淹漫并钻犁过其它乐器的最低音调时，它的演奏是多么地美妙！

当人声从和声的波涛中颤栗跃出时，我马上分辨出它们是更加狂喜、迅速上扬如燃烧的火焰，直令我的心跳嘎然而止。

而女声部的歌声似乎具备了天使般的声响，在美丽而鼓舞人的声音洪流中和谐涌动。

接着所有的乐器和人声一起爆发出来——像在天堂摇荡的海洋——然后像风一样渐微渐消，于甜蜜音符的柔和沐浴中结束。

当然这不是“聆听”，但我确知这些音符与和声传达给我雄美和壮丽的情愫。同时我感受到——或者我自认为感受到——自然的温柔歌声唱进我手中；感受到摇摆的芦苇和风、以及潺潺的溪流。我以前从未因这么多的音调震动而狂喜过。

当我聆听时，黑暗和旋律、阴影和声音充满整个房间，我忍不住想到倾注如此甜蜜洪流给世界的这位作曲家，竟是和我一样耳朵聋了。我惊讶于他不灭的精神所产生的力量，从他的痛苦中为别人粹练出欢乐——而我坐在这儿，用我的手感受这神奇的交响曲，仿佛海洋一般拍击着他和我两人寂静的灵魂海岸。

这是一篇令所有能听见、能看见的人汗颜的文字。

为什么失去了观察世界的很多个维度，海伦·凯勒依然比绝大多数健全的人更能感知这个世界的秘密？

她自己曾经给出过答案：‍

“世界上最好和最美的东西是看不到也摸不到的……它们只能被心灵感受到。”

也许灵魂，才是一个人最重要的维度。

升维思考，降维行动

热搜

热门跟贴

热搜

热门跟贴

相关推荐

新手思路VS高手思路

王殿武：思维进化，利用逆推思维改变人生，获取财富

只要思想不滑坡，办法总比困难多，瞬间明白什么叫做专业

这就是格局，在职场你不这样怎么上位

为了能当领导，我爸给我报的每个志愿都是「人力资源管理」｜梁彦增 一席

换个角度能看到不一样的问题

工作上，你是强者还是弱者，就看有没有这4种“弱者思维”

想明白能少走一辈子弯路

王殿武：思维，认知，方法，套路，所有虚拟无形的玩意都是扯蛋

提升表达能力，说服力UP！

格局是时候打开了

从整个人生视角看得失，一切便会释然

中国科学院用数学研究深度学习，助力理解神经网络深度的有效性

只需单个器件和单次测量：科学家实现高维度的光场探测，将能用于自动驾驶

几何朗兰兹猜想被解决！论文达800余页，中国学者陈麟系主要作者

研究生偷卖实验室「废品」月入过万，导师：这钱拿来补贴经费就闭环了

惨了，因质粒用错，博士被撤稿，痛失学位，导师：我不允许各位重蹈覆辙

一篇论文没发，师兄竟获得诺贝奖，他当场致谢了让自己延毕的导师

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

30年冷板凳，诺贝尔物理学奖得主Hinton的AI往事

为了能当领导，我爸给我报的每个志愿都是「人力资源管理」｜梁彦增一席