打开网易新闻 查看精彩图片

“哥德尔不完备定理,大概意思是说,一个大模型不能自证清白,必定有一些幻觉不可能消灭掉,多少资源能够换取多少幻觉的降低、或者错误率的降低,是有一个平衡点的。”这是加拿大皇家学院院士、香港科技大学荣休教授杨强近日在AGI-Next前沿峰会上的发言,发言的核心直指AI的安全与伦理边界。

随着大模型从“对话交互”向“自主行动”演进,数据泄露、价值观偏移、技术滥用等风险持续扩大,伦理安全已成为制约AGI健康发展的关键瓶颈。结合既往权威报道与政策文件,当前AI大模型伦理安全的核心问题、风险体现及补缺路径逐渐清晰。

在上述峰会上,AI伦理与安全成为嘉宾讨论的核心议题。91岁的中国AI研究先行者张钹院士、腾讯姚顺雨、阿里林俊旸等学界泰斗与企业掌舵者纷纷直指当前大模型在伦理安全领域的突出短板。

最近一起有关AI应用涉黄的案件审判也吸引着大家的注意,AI的安全可控与伦理边界问题成为必须直面的问题。

在上述峰会上,与会嘉宾指出,当前AI大模型伦理安全领域的核心矛盾,在于技术迭代速度与伦理安全治理能力的失衡,具体呈现两大核心问题。

其一,大模型价值观对齐机制脆弱,难以适配复杂社会语境。腾讯姚顺雨在峰会上明确指出,“当前大模型在价值观、文化语境、伦理边界上的对齐仍非常脆弱”,尤其中文语境下的AGI需深度理解中国社会结构、历史文化和治理逻辑,否则易产生伦理偏差。

其二,伦理安全风险贯穿大模型全生命周期,现有治理存在明显盲区。中国社科院课题组调研发现,从数据标注、预训练到应用投放,大模型各环节均存在伦理安全隐患,而部分企业因合规成本考量或技术局限,未将伦理要求纳入技术架构设计。

伦理安全漏洞已在技术、应用、社会三个维度呈现具体风险,且存在叠加扩散态势。在技术层面,内生安全风险突出,模型开源成为新隐患。

中央网信办发布的《人工智能安全治理框架》2.0版明确指出,基础模型开源可能被不法分子用于训练“作恶模型”,同时算法黑箱导致的歧视问题难以规避。应用层面,低质有害信息扩散污染内容生态,生成式AI的虚假信息、深度伪造等问题已渗透至新闻传播、金融服务等领域。阿里林俊旸在峰会上进一步警示,随着具身智能发展,模型具备主动行动能力后,“可能做出不该做的事情”,给物理世界安全带来新挑战。

社会层面,应用衍生风险持续发酵。中国社科院课题组指出,AI技术可能冲击就业结构、引发资源供需失衡,而“AI+科研”模式还可能降低高伦理风险科研领域的准入门槛,诱发违背社会伦理的研究行为。此外,姚顺雨强调,技术滥用可能加剧社会撕裂,需警惕AI在价值观输出中的隐性误导,推动“AI for Social Good”成为行业共识。

针对上述漏洞,学界与业界普遍认为需构建多维度协同治理体系,实现技术防控、哲学引领、伦理规范、政策监管的有机融合。技术层面,需强化全生命周期风险防控。腾讯正通过多智能体社会模拟技术,训练模型在复杂人际互动中学习合作与共情,提升价值观对齐稳定性;《人工智能安全治理框架》2.0版也明确提出,要强化全生命周期技术治理手段,从数据标注、模型训练到服务投放全流程植入安全校验机制。

政策层面,全链条监管体系已逐步成型并持续完善。早在2023年,多部委联合颁布《生成式人工智能服务管理暂行办法》,实现从基础硬件到服务投放的全链条监管覆盖;2025年出台的《人工智能生成合成内容标识办法》及配套国家标准,进一步明确了生成内容的监管要求。中国社科院课题组发布的《人工智能示范法3.0》还提出,应构建适应性法治机制,鼓励政府、企业、公众等多方主体参与规则制定,平衡法律稳定性与技术适应性。

业内专家表示,AGI发展已进入精耕细作的深水区,伦理安全治理不是技术创新的阻碍,而是可持续发展的保障。此次AGI-Next峰会对伦理安全问题的聚焦,标志着行业已从“追逐技术突破”向“安全创新并重”转型。未来,随着多维度补缺路径的落地,有望构建起“技术可控、伦理合规、社会认可”的AI发展生态。