企业组织仍在努力弄清AI如何融入其业务,这可能是件好事,因为理解AI生成的代码和内容造成的问题需要时间。
"目前没有人知道什么是适合其机构的正确参考架构或用例,"AI咨询服务公司Codestrap的联合创始人兼首席技术官多里安·史密利在接受采访时说。"很多人都在假装他们知道。但没有可以参考的行动手册。"
史密利和他的联合创始人、首席执行官康纳·迪克斯曾在全球咨询公司普华永道工作,现在成立了自己的公司来帮助组织制定AI策略。
他们认为追逐AI的公司过于超前了。
"从大语言模型的角度来看,人们并没有真正解决底层文本的易错性,"迪克斯说。
迪克斯认为,如果从第一原理构建AI系统,它看起来会与今天提供的产品截然不同。关于软件工程和办公工作消失的所有讨论,他说,"我们不赞同任何这样的观点。"
他还坚持认为公司也不想相信这一点。"在很大程度上,他们不想相信每个人都会被解雇,在他们下面不会有任何人,特别是在这些机构内的技术或信息组织中,"他说。
缺失的指标
史密利认为,考虑AI的组织的第一步是在反馈循环中进行实验和迭代。他说,这样做的原因是AI仍然不能很好地工作。
"即使在编码方面,它也不能很好地工作,"史密利说。"我给你举个例子。代码看起来可能是正确的,通过了单元测试,但仍然是错误的。通常测量这一点的方法是基准测试。因此,很多这些公司没有进行适当的反馈循环来查看AI编码对他们关心的结果的影响。代码行数、拉取请求数量,这些都是负债。这些不是工程卓越性的衡量标准。"
史密利说,工程卓越性的衡量标准包括部署频率、生产交付时间、变更失败率、平均恢复时间和事件严重性等指标。他坚持认为,我们需要一套新的指标来衡量AI如何影响工程性能。
"我们还不知道那些是什么,"他说。
一个可能有用的指标,他说,是测量为了获得批准的拉取请求(软件中正式接受的更改)而消耗的Token。这是需要评估的事情,以确定AI是否有助于组织的工程实践。
为了强调没有这种数据的后果,史密利指出了最近尝试使用AI将SQLite重写为Rust的情况。
"它通过了所有单元测试,代码的结构看起来是正确的,"他说。"但它的代码行数是原来的3.7倍,性能却比实际的SQLite差2000倍。对于数据库来说,差2000倍是不可行的产品。这是一场灾难。扔掉它。你花在上面的所有钱都是无价值的。"
史密利认为,关于使用AI进行编码的所有乐观情绪都来自于测量错误的事物。
"如果你测量代码行数和拉取请求,编码是有效的,"他说。"如果你测量质量和团队性能,编码就不起作用。没有证据表明这正朝着积极的方向发展。"
没有免费午餐
迪克斯指出了亚马逊和AWS最近的停机事故——亚马逊坚持认为这些事故与AI无关——作为即将到来的事情的指标。
"另一种看待这个问题的方式是这里没有免费午餐,"史密利说。"我们知道模型的局限性。很难教授新事实。很难可靠地检索事实。通过神经网络的前向传播是非确定性的,特别是当你有推理模型通过内部独白来提高下一个Token预测的效率时,意味着你每次都会得到不同的答案,对吧?那个独白会是不同的。
而且它们没有归纳推理能力。模型无法检查自己的工作。它不知道给你的答案是否正确。这些是大语言模型技术中没有人解决的基础问题。你想告诉我这不会在代码质量问题中表现出来?当然会表现出来。"
史密利认为,新指标是必不可少的,因为我们已经有数百万行人类永远不会审查的AI生成代码。
在业务应用的背景下,迪克斯指出了德勤因为包含AI生成错误的报告而不得不向澳大利亚政府退还费用的情况。
"我们知道大型咨询公司现在正在大规模采用这个技术来编写他们的PowerPoint演示文稿,"迪克斯说。"这将导致巨额诉讼和金钱损失,因为质量实际上没有得到跟踪。每个人都相信了这个童话故事,认为它已经很完美了。"
史密利预期AI应用于办公工作会遇到与AI应用于编码时类似的问题。但由于缺乏对虚构商业建议的基准测试,发现AI错误将更加困难。
"这里的另一个挑战是激励机制不一致,"史密利说。在像普华永道这样的四大会计师事务所,他说,合伙人想要更多收入和更高利润率。
"你给他们AI——他们会做什么?"他问。"更多工作,更少人工工作。所以你得到更多收入,更高利润率。这不利于让团队中的所有人使用AI但审查AI的每个输出。这些激励不一致。总监的激励是停止与助理交谈,因为助理什么都不知道。总监将使用AI来做助理的工作。对于助理来说,激励是更快地完成工作然后去海滩。所有这些激励都没有以使AI与业务互补并交付结果的方式对齐。"
史密利预测"对于AI重度用户来说,与代码质量相关的问题将在8到9个月内出现"。
迪克斯预见到越来越多的诉讼,因为当糟糕的建议造成问题时就会发生这种情况。
"人们将继续开始感受到'我必须采用这些东西,我必须做AI决策'的压力。他们将把这些东西投入生产,无论是在业务工作流程中还是在工程组中。然后加速的崩溃将让很多人失去工作。"
史密利说,另一个可能的结果是价格压力——当公司知道服务公司使用AI工具时,它们会要求折扣。
迪克斯说极端的价格压力开始出现。"甚至毕马威也向另一家会计师事务所施压要求降价,因为他们一直说他们使用AI,"他说。"客户现在说诸如'哦,你们用AI制作PowerPoint演示文稿。好吧,我想付给你们更少的钱。'"
另一个迫在眉睫的问题是大型保险公司对承保涵盖公司AI风险的保单变得谨慎。
"保险承保商现在正在认真尝试在应用AI且没有明确责任链的保单中取消保险范围,"史密利说。"所以现在让我们想象你是四大会计师事务所之一,你确实被起诉了,你正面临价格压力,市场超过了你适应的能力,现在你的承保商告诉你,'顺便说一下,我们不会为你提供保险。'"
迪克斯说"我们的一个朋友是该国最大保险公司之一的高级副总裁,他直接告诉我们这是一个非常现实的问题,他不知道为什么人们没有更多地谈论它。"
他说,保险公司已经在游说州级保险监管机构在商业保险责任保单中赢得豁免,这样他们就不必承保AI相关的工作流程。"这会杀死整个系统,"迪克斯说。
史密利补充说:"这里的问题是,如果一切都那么好,为什么保险承保商要竭尽全力禁止为这些东西提供保险?他们通常在风险分析方面相当擅长。"
迪克斯说,与其将这些问题作为即将崩溃的迹象,他希望行业内的人们能找到动力认真谈论需要克服的问题。
"我们能否真正就此进行对话?"他问。"有人会谈论通用人工智能的反面以及它如何在乌托邦未来接管一切吗?"
迪克斯坚持认为,我们需要更清楚地了解AI对金融、承保以及实际业务和业务系统实际操作的意义。
Q&A
Q1:为什么说企业在AI应用上还在假装?实际情况是怎样的?
A:目前没有人知道什么是适合其机构的正确参考架构或用例,很多人都在假装他们知道,但实际上没有可以参考的行动手册。企业追逐AI过于超前,从大语言模型角度看,人们并没有真正解决底层文本的易错性问题。
Q2:AI生成的代码真的有效吗?存在什么问题?
A:AI编码存在严重问题。代码看起来可能正确并通过单元测试,但仍可能是错误的。例如,用AI将SQLite重写为Rust的尝试中,代码行数是原来的3.7倍,但性能却比实际SQLite差2000倍,完全不可用。
Q3:保险公司对AI应用有什么担忧?
A:保险承保商正在认真尝试在应用AI且没有明确责任链的保单中取消保险范围。他们已经在游说州级保险监管机构在商业保险责任保单中获得豁免,这样就不必承保AI相关的工作流程,这可能会破坏整个系统。
热门跟贴