周一 · 知古通今|周二 · 牧夫专栏

周三 · 视频天象|周四 · 观测指南

周五 · 深空探测|周六 · 茶余星话|周日 · 太空探索

翻译:王婧彧

校对:刘海牧、申振宇

审阅:牧夫校对组

排版:胡永葳

后台:胡永葳

原文链接:https://www.space.com/ai-artificial-intelligence-communicate-with-aliens-better-than-us

如果我们收到了外星文明的信号,AI和人类谁能更好地与它们沟通呢?

图片来源:Getty Images

如果搜索外星文明的SETI计划成功了,我们也许需要人工智能来帮助理解并回复外星人的信号

在流行文化中,我们已经习惯了外星人讲英语,或者利用一种神奇的万能翻译器让我们能与之沟通。但实际上,与外星人的沟通可能不会这么容易。

可能存在的问题有:1.我们遇到的外星人不会说人类语言;2.缺乏关于外星文化和社会的知识使得我们即使能够翻译,也不能理解与它们文化标准之间的相关性。

伊蒙·克林斯(Eamonn Kerins)是英国曼彻斯特大学乔德雷尔班克天体物理中心的天体物理学家,他认为外星人可能会认识到这点,并通过使用尽可能简单的信号来降低我们理解的难度。

克林斯表示,人们也许希望那些想与我们联系的外星人尽可能使用全宇宙通用的信号。这也许是一串基本的数字序列,因为这已经能够传递出一个信号了——我们在这儿,你们人类并不孤独。

事实上,SETI几十年来都在考虑收到pi(圆周率)这个易于辨认的数字序列的可能性(正如卡尔·萨根的小说《接触》里的情节),但它不是唯一可能的信号。其它的信号可能更难懂,传递着更复杂的概念。这时,我们就会遇到第三个难题:外星语言的复杂度可能比人类语言的高几个数量级。

这正我们需要AI帮助的地方。但在这之前,我们必须更深入地了解语言的特征。

信息论

当我们谈论信号或者信息复杂时,并不是说外星人在讨论复杂的问题,而是指它们的信息、语言的复杂度。语言学家们称之为“信息论”,它是由20世纪40年代后期在新泽西的贝尔实验室工作的密码学家、数学家克劳德·香农(Claude Shannon)提出,由哈佛大学的语言学家乔治·齐夫(George Zipf)发展的。

信息论是一种提炼任何交流的信息内容的方式。香农意识到任何信息的表达——无论是人类语言,植物释放出的吸引捕食者吃掉它们叶片上毛毛虫的化学信号,还是沿着光缆传输的数据——都可以被分解为一个个单元。这些单元就像交流的“量子”,比如字母或者海豚的口哨类型。

在语言中,这些单元不能随意排列。句法就是描述这些单元应该如何排列的语法规则。比如,在英语里一个单词是q开头,它后面会跟着一个u,接着这个u后面只能跟有限的几个字母。现在假设有单词‘qu——k’里有一些空白,我们从句法知道只有几种可能的字母组合能够填充这个空白——'ac' (quack), 'ar' (quark), 'ic' (quick) 和 ir (quirk)。但是如果这个单词是句子的一部分,如“The duck went qu––k”那么通过上下文我们就知道空掉的字母是ac。

理解了这些规则,或者说句法,我们就能填充空白。使我们仍能够填补句中所缺单词的缺失信息量叫做“香农熵”。人类语言十分复杂,它是地球上目前已知的香农熵最高的自然交流形式。

同时,齐夫量化了香农信息论的这些基本原则。在任何交流中,一些最基本的小单元出现的频率会比其他的高。比如,在人类语言中,a e, o, t 和 r这些字母比q和z出现地更频繁。如果在一张图上,X轴从左到右代表从常见到不常见的单元,它们出现的频率画在Y轴上,那么所有人类语言画出的图会呈现-1的斜率。相反,一个婴儿的喃喃自语会在图上呈现出一条水平线,因为所有的单元出现的频率都是一样的。交流越复杂,就像婴儿成长为幼儿并开始说话,图上的斜率就越趋向-1。

传递pi的数位就会出现-1的斜率。所以,与其去搜寻技术信号,也就是其他先进地外文明科技产生的信号,一些研究人员认为倒不如用SETI特别留意搜寻斜率为-1的信号,无论它们看起来是不是人造的。并且,机器学习的算法也可以筛选射电望远镜收集到的数据,并且用来分析每一个可能的信号是否符合齐夫定律。

此外,外星语言也许有着比人类语言更高的香农熵。如果果真如此,那么人类想要理解它们的语言就会很困难。

但对于AI来说,可能不会如此困难。AI已经开始被用来测试理解非人类物种的交流了,如果它能通过测试,那么AI也许在未来能够破解任何外星信号。

像ChatGPT这样的人工智能系统已经被用来理解和产生自然人类语言

图片来源:iStock/Getty Images

破译海豚的语言

丹尼斯·赫辛(Denise Herzing) 是佛罗里达州朱皮特野生海豚项目的研究负责人。他是世界上理解海豚语言的最顶尖的专家之一。他在过去的四十年与海豚一起游泳,并研究它们的交流。现在他引入了AI作为辅助。

一种方法是听海豚交流时发出的哨声和叫声的录音。特别的,一种机器学习算法能够将海豚的交谈片段分解为频谱图上的不同单元(按照声音频率绘制的图),就像香农和齐夫所描述的。接着用不同的字母标识不同的单元,这和单词或者字母很类似。赫辛就研究它们能够组合在一起的不同方式,或者换句话说,它们的顺序和结构。

赫辛说,“现在我们已经辨认出24个在频谱图上组合在一起的小单元,所以你也许会听到一个高音的A紧接着跟着低音的B,这就形成了声音序列的一个典型的结构”。

这个机器学习算法会进一步分析这些录音,从而来寻找这些典型结构重复的例子。

赫辛说,他们在寻找重复的有趣的序列。这个算法寻找替代的或者序列中被删去的部分,所以你也许会听到相同的典型序列,但是其中一小部分是不同的。这是一个很重要的学习机制。

这个小的不同也许是因为它包含了海豚的特征叫声(每只海豚都有它自己独特的特征叫声,有点像人类的名字)或者因为语境不同。

这些都与香农的信息理论十分一致,赫辛也对齐夫定律很感兴趣,并且想进一步研究海豚的交流是否能够呈现-1的斜率。

“我们在寻找类似语言的结构,因为每种语言都有一种遵循规则的结构和语法。”赫辛表示,他们特别在寻找组合的数据的可能性——发现的小单元是单独存在的,还是和其他声音一同组合的呢?

赫辛的团队还在搜索二元语法,这是指当两个小单元经常在一起出现时的情景,这意味着一个特定的词组。最近他们也开始寻找三元语法,这是指三个单元经常出现在一起,也意味着更高的复杂度。

语言学家们已经研究海豚的交流几十年了,这个研究也许是对外星交流的一个很好的模拟。

图片来源:iStock/Getty Images

寻找意义

这正是为什么AI能够分析SETI信号中隐藏的信息。如果外星语言在结构和语法上比人类语言更复杂,那么这告诉我们,它们也许比我们更加古老,有足够的时间进化其语言。

但是,我们还是不能知道它在与我们沟通时的语境,这也是目前理解海豚交流的困难之一。赫辛利用海豚池的录像来观察AI探测到一个重复的典型语言序列时,海豚在干什么,这使他能去尝试推断这些声音的语境。

“但是当你面对的是电磁信号时,你又会如何发现这个信息的语境是什么呢?”赫辛说,他对SETI也很感兴趣。“研究动物的声音是研究外星信号的一个模拟,这能够使我们建立起归类和分析这些信号的工具,但是说到理解,天知道要怎么办。”

当我们收到外星信号后,我们也许想回复些什么。理解语境的困难这时又会出现。正如Spock在电影《星际迷航4:抢救未来》中关于如何回复一个外星探测器时所说的:我们也许可以重复声音,但却无法重复内容。我们可能是在胡言乱语。

赫辛通过在关于如何称呼事物上与海豚达成一致来尝试避开这个语境问题,这也是CHAT(鲸目动物的听力和遥测)的本质,这是研究人员们用AI来尝试与海豚沟通的第二种方法。

在第一版中,CHAT是一个环绕使用者胸部的大仪器,它通过水听器接收声音,然后从一个话筒中播放声音。现代的版本是一个智能手机大小的,别在腰间的仪器。它不是为了翻译成海豚语,而是与海豚就它们想玩耍的玩具对应的声音达成一致。比如,它们想和鱼钩玩耍,就会发出商定好的鱼钩对应的叫声。如果一个携带着CHAT仪器的潜水员想要海豚把鱼钩给他,那么这个水下的音响就会播放鱼钩对应的叫声。AI的工作就是从所有声音中辨认出这个对应的叫声,这些声音中包含了水下的声音干扰,比如说泡泡和船发动机的声音。

赫辛观察到海豚会使用这种事先商定好的声音,但是是在很多不同的语境下。问题是要花足够的时间观察每一头海豚,使它们能够完全理解事先商定好的声音。

但是对外星人,它们的信息可能穿越了很多光年,所以双方的交流也许会需要十年,几百年,甚至几千年。所以,我们有的关于外星人的信息将会局限在它们发给我们的信息中。如果正如赫辛所推测的,它们发送的信号是数学的,并且只是为了告诉我们它们的存在,我们并不孤单,那么我们就不用担心如何去破解了。

但是,如果它们发送的信息像海豚的叫声那么复杂,数据的大小就很重要。所以,希望外星人发送给我们打包信息,希望AI至少能有机会解析其中的某些部分。

责任编辑:杨伯顺

牧夫新媒体编辑部

『天文湿刻』 牧夫出品

微信公众号:astronomycn

克劳德 香农

来源: 网络

谢谢阅读