一份提交给联邦破产法庭的文件里,6个引用的判例中至少有1个根本不存在——这不是法学院新生的作业,而是服务过特朗普的顶级律所 Sullivan & Cromwell 的正式动议。

对手律所 Boies Schiller Flexner 的律师在核对时发现了这些"幻觉":有的判例被错误概括,有的法条被直接曲解,最离谱的一个引用干脆是ChatGPT编出来的假案子。这场发生在曼哈顿联邦法院的交锋,正在重新定义AI工具在高压专业场景中的使用边界。

打开网易新闻 查看精彩图片

48小时危机:从被举报到紧急道歉

事件时间线极为紧凑。Boies Schiller Flexner 在审查 Sullivan & Cromwell 提交的动议时,逐条核对了引用的判例来源——这是大型诉讼中的标准操作,但过去 rarely 能抓到如此离谱的错误。

发现问题后,他们迅速向法庭举报。周六,Sullivan & Cromwell 重组业务联席主管 Andrew Dietderich 向联邦法官 Martin Glenn 提交了道歉信。「我们对此深感遗憾,」Dietderich 写道。

这封信的措辞值得细读。Dietderich 一方面强调律所「关于AI工具使用的培训要求」和「清晰严格的政策」,另一方面承认「这些政策在准备动议时未被遵守」。这种表述既是在向法官解释,也是在为可能的纪律处分提前划定责任边界——将问题定性为"执行疏漏"而非"制度缺失"。

律所同时启动了「即时补救措施」,包括审查AI幻觉如何逃过内部检查,并向法庭提交了修正版文件。但损害已经造成:一家以严谨著称的百年律所,在公开记录中留下了依赖机器编造法律先例的把柄。

幻觉产业链:为什么专业用户反复中招

这不是孤例。Morgan & Morgan 等大型律所此前也因AI错误引用而蒙羞。问题的核心在于生成式AI的工作机制与法律研究的需求存在结构性错配。

大型语言模型(LLM,一种基于概率预测文本的AI系统)并不"理解"法律,而是基于训练数据中的模式生成看似合理的文本。当用户请求"找一个支持X观点的判例"时,模型会生成符合该描述的内容,而非检索真实数据库。结果就是:引用的判例名称、年份、法官名字都可能完全虚构,但格式和语气无懈可击。

更危险的是,这些错误往往被忙碌的专业人士忽略。Sullivan & Cromwell 的文件显然经过了多层审核,但假判例依然过关。据 Financial Times 报道,该律所持有 OpenAI ChatGPT 的企业版授权——这意味着他们并非使用免费版的业余用户,而是配备了完整合规框架的机构客户。

企业级工具+内部培训+多层审核=仍然翻车。这个等式正在动摇市场对AI辅助专业服务的信任基础。

法庭的反制:从罚款到"公开处刑"

法官们的反应正在升级。Martin Glenn 尚未宣布是否制裁 Sullivan & Cromwell,但历史案例提供了参考坐标。

两名 Cozen O'Connor 律所的律师曾因类似错误被法官给出选择:接受正式制裁,或写信给各自的法学院院长解释自己如何搞砸。这种"声誉惩罚"比罚款更具威慑力——它直接触及专业精英的身份认同。

其他法官选择更传统的路径:罚款、向州律师协会通报、公开训诫。无论哪种方式,趋势明确:将AI错误视为律师的专业失职,而非技术中立的事故。

这对AI厂商是微妙信号。OpenAI 等企业一直在推动ChatGPT进入专业垂直领域,但法庭正在建立一条红线——工具的输出不能替代专业人士的核实义务。企业客户的"合规采购"叙事(我们有授权、有培训、有政策)在司法审查面前显得苍白。

行业拐点:当"效率工具"变成" liability 源头"

Sullivan & Cromwell 的特殊性在于其客户名单。服务过特朗普的律所通常以政治敏感性和危机处理能力著称,这次却在技术工具上栽了跟头。这种反差放大了事件的象征意义:如果连最谨慎的机构都无法安全部署生成式AI,谁可以?

律所行业的反应正在分化。一部分机构加速采购AI检测工具(如专门识别幻觉引用的软件),另一部分则回归人工复核的保守策略。更具前瞻性的玩家开始探索"检索增强生成"(RAG,一种将AI与真实数据库绑定的技术架构),试图在效率与准确性之间重建平衡。

但技术修复只是表层。更深层的冲击在于客户关系:当企业客户发现律所的账单中包含AI生成的错误,他们是否会要求费用减免?职业责任保险是否会将AI使用纳入风险评估?这些问题的答案将重塑法律服务的定价模式。

Boies Schiller Flexner 的"举报"行为本身也值得关注。在高度竞争的法律市场中,主动揭露对手的技术失误是一种策略选择——它既打击了对方信誉,也向潜在客户展示了自己的尽职调查能力。这种"AI审计"可能成为大型诉讼的标配流程,进一步推高诉讼成本。

未解之谜:谁该为幻觉负责?

事件中仍有关键信息缺失。Sullivan & Cromwell 未披露具体使用了哪款AI模型,仅通过消息人士向 Financial Times 确认持有ChatGPT企业授权。是律师直接使用了通用聊天界面,还是通过某种法律专用插件?幻觉是在初稿阶段产生,还是在后续编辑中被引入?这些细节将决定责任分配的逻辑。

Dietderich 的道歉信试图将事件框定为"政策执行失败",但法官和公众更想知道:如果"清晰严格"的政策都无法阻止错误流出,这套政策的实际效力几何?当技术工具的速度优势与专业服务的准确性要求冲突,组织如何设计真正有效的制衡机制?

对于25-40岁的科技从业者,这个案例提供了一个罕见的观察窗口:不是AI取代人类的科幻叙事,而是人类+AI协作模式在高压场景中的真实摩擦。Sullivan & Cromwell 的律师并非技术外行,他们的失误恰恰发生在"懂行"的人身上——这提示我们,AI风险不仅关乎技术能力,更关乎组织流程和激励机制的设计。

当生成式AI从尝鲜玩具变成生产工具,我们是否需要重新定义"专业标准"?如果法官开始默认核查AI引用,如果客户开始要求披露AI使用范围,如果保险条款开始排除幻觉损失——这些变化将以多快的速度渗透到其他专业领域,比如医疗、金融、工程咨询?