摩根大通(JPMC)去年的收入为2740亿美元,管理着3.3万亿美元的资产,比大多数银行都有更多的资源用于构建一个成功的数据和人工智能战略。但正如摩根大通软件工程和架构高级执行董事James Massa上周在SolixPower主题演讲中解释的那样,即使是世界上最大的公司也必须密切关注数据和人工智能细节才能取得成功。
Massa在题为“人工智能的数据质量和数据战略、衡量人工智能价值、测试LLM和人工智能用例”的Solix Empower 2024主题演讲中,深入了解了这家金融服务公司如何处理数据和人工智能挑战,如模型测试、数据新鲜度、可解释性、计算价值和监管合规性。
Massa说,采用大型语言模型(LLM)的一个大问题是信任。当一家公司雇佣新员工时,他们会寻找一个表明大学已经审查了他或她的能力的学位。虽然LLM表面上是为了取代(或至少增加)人类员工而设计的,但我们没有那种“你可以信任这个LLM”的认证
Massa在数据管理软件供应商Solix Technologies在加州大学圣地亚哥分校举办的活动上说:“LLM员工有什么经验?他们……接受了什么样的数据训练?他们很好吗?”
他说,我们仍处于人工智能的早期阶段,像OpenAI这样的人工智能供应商正在不断调整他们的算法。人工智能采用者有责任不断测试他们的GenAI应用程序,以确保事情按广告宣传的那样运作,因为他们没有从供应商那里得到任何保证。
他说:“量化LLM的质量并设定基准是具有挑战性的。”“因为没有标准,也很难量化,我们正在失去一些已经存在多年的东西。”
Massa说,在过去,质量保证(QA)团队会阻碍将应用程序推向生产。但是,由于Git和CICD等DevOps工具和技术的发展,QA实践变得更加标准化。软件质量有所提高。
Massa说:“我们得到了预期的结果,代码的全面覆盖。我们达成了一项谅解,如果发生这种情况,那么你就可以投入生产。”“现在我们又回到了推动和拉动的问题上,即某件事应该去还是不应该去。这变成了一场关于谁更有尊严和分量在会议上站起来说,这需要向前推进,还是需要向后推进。”
在过去,开发人员以概率范式工作,软件(大多)以可预测的方式工作。但人工智能模型是概率性的,不能保证你会两次得到相同的答案。公司必须让人类参与进来,以确保人工智能不会与现实脱节太远。
Massa说,在QA测试中,人工智能测试人员所能期望的最好的答案是“预期类型的答案”,而不是得到一个单一的正确答案。“没有所谓的测试完成,”他说。“现在LLM几乎是活的。数据漂移,结果会得到不同的结果。”
当AI模型与其他AI模型交互时,事情变得更加复杂。“这就像无穷平方。我们不知道会发生什么,”他说。“因此,我们必须决定在循环中有多少人需要审查答案。”
Massa说,JPMC使用多种工具来测试LLM的各个方面,包括用于测试召回的面向召回的亚学习、用于测试精度的双语评估亚学习(BLEU)、用于衡量召回、忠实度、上下文相关性和答案相关性的Ragas,以及用于测试模型如何随时间变化的Elo评级系统。
对人工智能系统缺乏信任的另一个副作用是对可解释性的需求增加。Massa回忆起所有软件工程经理都遵循的一条简单规则。
Massaid说:“你在60秒内向我解释一下。如果你不能做到这一点,你就没有充分理解它,我不相信你没有犯很多错误。我不相信这个东西应该投入生产。”“这就是我们的操作方式。可解释性很像LLM。如果你不能向我解释为什么你会得到这些结果,以及你如何知道你不会得到假阴性,那么你就不能去生产。”
人工智能所需的测试量是巨大的,特别是在监管机构参与的情况下。但实际可以进行的测试数量是有限的。例如,Massa说,一位人工智能开发人员已经建立了一个模型,并用六个月的数据对其进行了彻底的测试,然后对机器自动化的测试进行了进一步的分析。
Massa被告知,答案是让第二个LLM检查第一个的结果。这让Massa想知道:谁在检查第二个LLM?“所以这是一个镜子大厅,”他说。“就像合规一样……有第一、第二、第三道合规防线。”
如果缺乏认证、QA挑战和测试可持续性没有让你感到困扰,那么总是有可能出现数据问题,包括过时的数据。长期存放在一个地方的数据可能不再满足公司的需求。这需要更多的测试。他说,任何影响人工智能产品的东西,无论是矢量嵌入还是用于RAG的文档,都需要检查。通常,一个文档会有几十个版本,因此公司还需要一个到期系统来弃用更可能包含过时数据的旧版本文档。
“这很简单,”Massa说。“但制作一个应用程序需要付出巨大的努力和金钱。希望有更多的(供应商)工具可以帮助我们做到这一点。但到目前为止,还有很多工作要做。”
一次检查数据质量问题不会让你走得太远,Massa主张在数据质量方面采取“零信任”政策。一旦检测到数据质量问题,公司必须有一种工作流程系统来确保问题得到解决。
他说:“例如,你在进入的过程中测试了所有数据,这很好。但你怎么知道数据在放置过程中没有因为一些奇怪的过程而变坏呢?”。“只有在使用前对其进行测试。因此,我们认为零信任数据质量。”
还需要护栏来防止人工智能表现不佳。Massa说,这些护栏的作用就像防火墙,既能防止坏事进入公司,也能防止坏事流出。不幸的是,建造护栏来处理每一个潜在问题可能非常具有挑战性。
他说:“当可能发生无限多不同的事情时,很难想出这些护栏。”“他们说,所以毫无疑问地向我证明,你已经覆盖了无限平方的东西,并且有了护栏。”
Massa说,JPMC拥有集中的功能,但它也希望其数据科学家能够自由地追求“激情项目”。为了实现这种数据使用,该公司采用了数据网格(DATA MESH)架构。他说:“数据网格有助于使数据既可用又可发现。”
Massa说,该公司的数据战略是自下而上和自上而下相结合的方法。
然而,一些集中控制是必要的,例如在人工智能法规、合规性和敏感数据方面。他说:“我认为我们在某种程度上正在连续体的两端进行实验,并试图找到我们属于哪里,我们想要前进的方向。”。“像往常一样,在中间的某个地方。真相总是在中间。”
Massa的团队一度有300个人工智能模型,但这个数字已经减少到大约100个。减少的部分原因是该公司要求每个模型都有价值并产生正的投资回报率。
找到人工智能的价值并不总是那么容易。对于某些人工智能模型,如防欺诈,分配投资回报率相对简单,但在其他情况下,这相当困难。监管合规规则的模糊性也使得评估影响变得困难。
热门跟贴