连信数字/连心云黄杏：语言之外，为什么“看懂人心”才是AI的终极考题？|心理学|推理|模态|算法|连信数字|连心云|黄杏

4月21日至22日，以“奔赴AGI 重塑未来”为主题的2026中国生成式AI大会（北京站）圆满举行。

这场大会集结73位产学研投嘉宾，通过1场开幕式、3场专题论坛、6场技术研讨会，全景式解析AI产业的产业脉络、创新范式、Token经济与中国机会。

议题跨度很大，从大语言模型、多模态模型、世界模型、智能体、AI眼镜等前沿模型与应用，到数据、芯片、存储、通信、云服务等基础设施。

在这场信息密度超高的大会上，连信数字/连心云洞见研究院负责人黄杏带来了题为《语言之外：为什么理解“人”才是AI进入真实世界的关键》的主题演讲。

黄杏指出，从图灵测试到大模型，人类的目标从未改变：让机器像人一样思考、行动。但当人们惊叹于AI能精准理解语言、写代码的同时，却忽略了一个事实：人的感觉、思考和刻意隐藏的信息，往往不会通过语言来表达。

AI要真正走入现实，光理解语言远远不够，还需要“理解人心”。

基于心理学与AI结合的逻辑，连信数字自研推出了“洞见人和”人本世界（心理）大模型，这是全国首个通过国家双备案的心理应用垂类大模型。它具备两大能力：多模态识别与分析推理，以及可将心理洞察转化为业务洞察。

借智东西生成式AI大会的舞台，黄杏也向行业正式传递了连信接下来的AI+云商业战略升级，正式对外推出连心云能力平台，全面上架核心模型能力与原生Agent。

以下是演讲实录：

一、从图灵测试到大模型，AI为何需要理解人心？

大家好，我是黄杏，来自连信数字洞见研究院。这两天听了许多嘉宾关于大语言模型和前沿技术的分享，我想探讨一个更朴素的问题：我们为什么要做人工智能？

从以往的图灵测试到如今的大模型，我们的目标始终未变：让机器像人一样思考、行动，甚至超越人类。可以说，人工智能的核心在于“人”。当前的大语言模型已经能够精准理解并表达人类语言，还能够写代码、写诗，能力非常出众。

但是，回归到现实中的人，我们的感觉、思考、下一步行动，以及潜在的风险，往往不会通过语言表达出来，甚至会被刻意隐藏。

因此，要让AI真正进入现实生活、与人类和谐交互，仅仅理解语言和物理世界是不够的，它还需要理解人心。这正是我今天演讲的主题：语言之外，为什么理解“人”才是AI进入真实世界的关键？

先来看人是如何理解人的。

在座的各位中，许多人是公司的管理者、面试官，同时也是子女或父母。日常生活中，我们需要对人做出各种理解和判断。例如，管理者要时刻留意团队成员有没有出现不稳定的迹象，会不会明天就跳槽；面试官要通过简历和面试判断候选人是否匹配岗位、是否认同公司价值观，其表达是真实还是伪装；家人要关注孩子的学习和心理健康状况、要关注老人唉声叹气说“老了没用”这些话背后究竟意味着什么。

更严肃的场景如司法、公安，一线人员在执法时需要依据语言之外的信息线索对嫌疑人做出严谨、有依据的研判。可以说，每个行业都离不开对人的分析与决策。

然而，大多数人的判断只能依赖琐碎的细节、肉眼观察、语言的字面意思，再加上个人经验和直觉（比如“第六感”），很难做到全面、客观地理解人。

在这方面，心理学是最擅长的，因为它的研究对象就是人，研究人的心理和行为规律。我硕士期间的方向是认知心理学，在标准化实验室里，我们可以通过小样本采集静态数据，发现一些心理和行为规律，例如什么是“不安全型依恋”，什么是“不良的情绪调节策略”，以及这些现象为什么会出现。

但心理学无法回答：这种心理状态什么时候会出现？出现之后该怎么应对？这正是心理学一直难以规模化、工程化落地的原因。因为真实世界由巨大的、非标准化的样本构成，人每天会受到各种刺激的影响，无法通过实验手段控制所有额外变量。此外，人的心理是动态变化的——比如我现在正在演讲，稍后向上级汇报工作，这两者的心理状态完全不同。这些现实中的复杂性，让心理学的发展面临瓶颈。

而此时，AI的优势就体现出来了。它虽然不太懂人心，但擅长处理海量数据，能够从数据中发现模式，并快速做出响应。那么，如果我们把心理学（尤其是认知心理学）理解人、分析人的方式方法教给AI，会怎么样？

为了解答这个问题，洞见研究院也随之诞生，洞见共有20余人，包括心理学、算法、大数据以及交叉学科背景的成员。我们每个人都相信心理学的应用价值，并最终给出了自己的答案。

二、“洞见人和”人本世界心理模型：从“觉察人”到“理解人”

我们构建了一套以人为中心的模型体系，叫做“洞见人和”人本世界（心理）大模型，这是全国首个通过国家网信办大模型备案与算法备案的心理应用大模型。

这个模型具备两个核心能力。第一个核心能力是多模态识别与分析推理，也就是让AI从“觉察人”迈向“理解人”。所谓“觉察”，是指AI可以从一个人的多模态数据中提取出与其心理活动、心理特征最相关的信息。

详细来说即为——

通过视觉获取面部运动单元、眼动轨迹、面部血流变化、肢体动作、步态；

通过语音提取语速、语调、流畅度；

通过文本分析用词习惯、句长、表达的逻辑结构。

如果能够接入更多源的数据，还可以提取出社会关系、重大生活事件、家庭结构、习惯用品、所在文化组织等信息，这些都与一个人的心理画像密切相关。

在感知到这些特征之后，数据会被送入一个分析推理图谱。这个图谱由16000多个图谱节点和120w条推理网络构成，是从大量心理学及相关学科的实证研究中提炼出来的。通过神经网络与符号推理相结合的方式，我们可以基于少量但高信息密度的数据线索，分析出一个人的全面心理画像，包括性格特征、情绪情感模式、潜在的需求动机以及能力资源等。也正是因为我们采用的是这种神经符号AI的方式，每一个分析结论都是可量化、可解释、可溯源的。

第二个核心能力是将心理洞察转化为业务洞察。理解人的能力需要在实际应用中产生价值。我们发现，客户关心的往往不只是单一个体的性格特点，他们更关心的，是在了解个体之后，如何进一步解决业务难题？经过几年的实践摸索，我们构建了这种转化能力。

举例来说，在教育场景中，我们为学校提供无感的心理健康监测工具，可以在危险事件发生之前找到前置的心理异常信号，提供给老师提前干预；在司法场景中，我们为司法机关提供再犯罪风险预测模型，帮助他们优化对特殊人员的管理；在招聘场景中，我们帮助企业预测员工的稳定性、职业倦怠程度、对企业的忠诚度；在金融场景中，我们帮助客户分析借款人的借贷风险和逾期可能性。

凡是涉及到对人做出决策的场景和行业，都有“洞见人和”发挥作用的空间。这四个字承载着连信数字的使命：让机器理解人心，让AI成就美好社会。

那么，它在实际场景中的表现到底怎么样？可以用两个最近的案例来详细说明。

司法案例：我们为某地司法局提供了再犯罪风险预测模型，该模型被嵌入到社区矫正对象每日拍照打卡的业务流程中。模型通过矫正对象每天上传的人脸数据进行持续监测和分析。最近一线工作人员反馈，模型预警的10名高风险人员中，经核实有7人确实发生了重大变故（如亲人去世或遭遇车祸）。其中一部分人主动上报了情况，另外两人则进行了瞒报。模型通过情绪异常信号及时发现了他们的问题，司法人员得以主动关怀，从而降低了再犯罪风险。

教育案例：我们为多所学校提供了心理健康异常风险预警模型。学校将该模型接入安防系统，通过走廊、食堂等场所的监控摄像头采集学生每天的情绪和行为。经过一段时间的监测，模型可以识别每个孩子的情绪异常波动、攻击性、压力过载等情况，并在出现异常时向老师预警。其中一所深度合作的校方反馈，预警的10人中，有6人确实存在明显的心理困扰。其中一名学生曾因心理问题退学，复学后适应不良，本人没有告诉老师，但被模型捕捉到了。此外，超过一半学生的心理危机甚至是此前老师没有关注到的——例如遭受霸凌、被孤立、与朋友吵架等。我们预警的不是“孩子马上要跳楼”这样的极端信号，而是那些真正会影响危险事件发生的“前置信号”，从而把风险防范于未然。