自从学会了用AI，工作简直像开挂了|ai|上下文|工作

生成式AI有望在未来几年彻底改变各种工作。未来，我们中的许多人会发现，我们的职业成功会取决于我们从ChatGPT等大语言模型（LLM）中获得最佳输出，以及与之一起学习和成长的能力。要在这个与AI合作的新时代脱颖而出，多数人将需要我们称为“融合技能”（fusion skills），即智能审问(intelligent interrogation)、判断整合（judgment integration）和互惠互学（reciprocal apprenticing）中的一种或多种技能。

智能审问涉及以能够产生更好推理和结果的方式提示LLM（或通俗来说，给他们指令），也就是用AI思考的能力，例如金融服务公司的客服可能会用它寻找复杂问题的答案回复客户，药理学家用它协助研究药物化合物和分子相互作用，营销人员用来挖掘数据集找到最优的零售定价。

判断整合是指当生成式AI模型不确定该怎么做，或者在推理中缺少必要的商业或道德背景时，引入人的判断。这样做的目的是让人机交互的结果更加值得信赖。判断整合需要我们知道介入的时间、地方和方式，其有效性是通过AI输出的可靠性、准确性和可解释性来衡量的。

互惠互学方面，你可以通过将丰富的数据和组织知识融入给出的提示，帮助AI了解业务任务和需求，从而训练AI成为合作创造者。这是一种根据公司具体业务背景定制生成式AI的技能，这样它就可以得出理想的结果。这样做时，你自己也能学会如何训练AI来应对更复杂的挑战。曾经只有数据科学家和搭建架构的数据分析师才需要这种能力，现在互惠互学在非技术岗位上变得越来越重要。

为什么你需要系统地发展这些思考、建立信任和定制的新技能？实证研究一致表明，临时指令——今天大多数员工提示LLM的方式——会导致不可靠或糟糕的结果，尤其是在复杂的推理任务中。从客户服务、市场营销、物流到研发等，各个职能部门中都是如此。对我们所有人来说，在工作中更加严格地使用生成式AI至关重要。本文将介绍如何做到这一点。

聪明提问

面对LLM这样大规模且复杂，又基于大量数据进行训练，由概率而非人类逻辑驱动的系统，如何提高其输出？可以尝试以下几种方式。

细分思考步骤。引导生成式AI时，需要将它应该遵循的过程分解为不同的组成部分，然后努力优化每一步——就像第一波科学管理在工业制造中做的那样。然而，AI生成的流程不是流水线，而是一个思维链，是通过这个链来寻求结果。研究表明，以这种方式指导生成式AI工具分解推理任务时，它们的性能会显著提高。正如最早探索思维链推理的 OpenAI研究员Jason Wei所证明的，这在处理棘手问题时尤为明显。

事实上，在LLM的指令中加入“让我们一步一步思考 ”这样简单的话，就可以在从数学到战略推理的一系列任务中，将其输出的准确性提高三倍以上。假设你的生成式AI提示是“我的部门有50万美元的预算，已经在设备上花费了20%，并为新员工分配了30%。预算刚增加了5万美元，我们还有多少预算？让我们一步步思考。”该模型将提出“最初，你的部门有50万美元，在设备上花费了20%，即10万美元，剩下40万美元，为新员工分配了30%，即15万美元，这将预算降至25万美元。最后，你最近获得了5万美元的预算增加，则剩下30万美元。”虽然大多数人可以心算出这类数学题，但问题是LLM（工作速度更快）可以详细说明他们在更复杂的定量问题上做了哪些工作，例如找到销售代表在几个城市间的最短路线。这就创建了一个可追溯的推理链，而不是在黑箱处理后吐出一个答案，这样就可以验证结果的准确性。

分阶段培训LLM。对于需要职业和领域知识的复杂任务的人机协作，例如法律、医学、科学研发或库存管理，可以分阶段为工作引入AI，以产生更好结果。

例如，麻省理工学院研究人员泰勒·罗斯（Tyler D. Ross）和阿什温·戈皮纳特（Ashwin Gopinath）最近探索了开发能够整合各种实验数据，并生成可测试假设的“AI科学家”的可能性。他们发现，当研究人员将复杂任务分解为一系列子任务以供模型学习时，ChatGPT 3.5-Turbo可以进行微调以学习DNA的结构生物物理学。在库存管理等非科学领域，子任务阶段可能包括需求预测、库存数据收集、重新订购预测、订单数量评估和绩效评估。对于每个连续的子任务，管理人员都要利用自身领域的专业知识和信息，对模型进行训练、测试和验证。

用LLM进行创造性探索。从战略设计到新产品开发，许多工作流程都是开放式和迭代的。要在这些活动中充分发挥人机交互的作用，就要引导机器将通往解决方案的多种潜在路径可视化，并以不那么线性和二元对立的方式给出回复。

正如研究员菲利普·肖内格（Philipp Schoenegger）、菲利普·特特洛克（Philip Tetlock）及其同事最近展示的，这种智能提问可以提高LLM对复杂金融和政治事件的准确预测能力。他们将人类预测员与GPT-4助手配对，这些助手已经准备好了丰富详细的提示，成为了“超级预测员”，可以指出可能结果的概率和不确定性的范围，并提供支持和反对每种结果的论据。研究人员发现，这些助手做出的预测（从某日的道琼斯运输业平均指数的收盘值，到2023年12月通过地中海进入欧洲的移民数量），比未被提示的 LLM 所做的预测准确率高出 43%。

纳入个人判断

将专家和道德以及人为洞察纳入这个等式，对于生成式AI的输出至关重要，这些输出将会值得信赖、准确、可解释，并会对社会产生积极影响。以下是部分可以使用的技术：

整合检索增强生成（RAG）。LLM不仅可能产生偏差幻觉，它们接受训练所依据的信息和数据集往往都是多年前的。与LLM合作时，人们经常需要判断输出中可靠、相关和最新信息的重要程度。如果是这样，你可以使用RAG将权威知识库中的信息添加到现成的LLM训练源中，这样有助于排除虚假、过时和有误的信息。例如，制药研究人员可能会使用RAG检索人类基因组数据库、科学期刊上最新发布的文章、涵盖临床前研究的数据库和FDA指南。要进行相关设置，我们通常需要IT团队的帮助，他们可以说出它是否已经或可以集成到我们的工作流程中，额外提升工作质量。

保护隐私并避免偏向。如果要在AI提示中使用机密数据或专有信息，那么只能使用公司防火墙内经公司批准的模型，绝对不能使用开源或公共LLM。在公司政策允许的情况下，如果LLM应用程序编程接口的服务条款规定不会保留私人信息用于模型训练，就可以使用私人信息。

注意你的提示中可能包含的偏向。例如，一位金融分析师要求LLM解释“昨天的季度报告如何预示着该公司将迎来五年的增长周期”，这就显示出了近因偏差(recency bias)，即在预测未来事件时偏重最新信息的倾向。

LLM供应商正在想办法帮助用户解决这些问题。微软和谷歌正在添加功能，帮助用户检查有害的提示和回复。Salesforce开发了AI架构，可以在组织提示时覆盖所有机密客户数据；防止此类数据与第三方LLM共享；对有毒、偏见和隐私等风险进行评分；并收集有关改进提示模板的反馈意见。不过，归根结底，最重要的还是你，这一循环中人的判断。

核实可疑输出。对幻觉和错误保持高度警惕，根据目前的研究，即使有大量数据工程和其他干预措施，幻觉和错误依然难以避免。正如加州大学伯克利分校研究员安真宇（Jinwoo Ahn）和申奎承（Kyuseung Shin）指出的，遇到看起来不对劲的输出时，LLM用户经常会条件反射地让模型进行反复尝试，进而逐渐降低了回复质量。研究人员建议，相反，我们可以确定AI出错的步骤，并让单独的LLM执行这一步，首先将其分解为较小的单个问题，然后使用输出来调整第一个LLM。想象一下，一位科学家使用OpenAI的ChatGPT通过一系列逐步计算帮助开发一种新聚合物。在思维链中的任何一点发现错误时，她可以要求Anthropic开发的大语言模型Claude将该步骤分解成更小的子问题，并解释其推理。然后，她可以将这些信息输入ChatGPT并要求其完善答案。从本质上讲，这种技术将思维链原则应用在了纠正我们判断有误的输出上。

将AI变成学徒

随着LLM规模和复杂性的增加，它们可能会表现出“涌现性质”(Emergent properties），比如高级推理，即它们没有受过训练，但在你提供上下文数据或知识后，这些技能就会出现。为了推动这一技能的发展，我们可以采取以下步骤。

为模型提供“思维演示”。在给LLM提出一个要解决的问题之前，可以先让它以某种方式进行思考。例如，你可以教它“从少到多”的推理方法，向AI展示如何将一个复杂难题分解成几个更小、更简单的难题，先解决难度最小的问题，将答案作为解决下一个问题的基础，以此类推。谷歌DeepMind的Denny Zhou及其同事已经证明，“从最少到最多”的方法可以将AI输出的准确率从16%提高到99%。

想象一位需要构思新系列的健身服装品牌的营销经理，他可以把这个问题分解成以下几步：

1. 受众。找出可以成为潜在客户的健身爱好者——这是一项相对容易的任务，特别是对于一个根据公司客户数据训练的模型。

2. 消息传递。在之前确定受众的基础上，强调性能、舒适度和风格的信息。这是一个更具挑战性和创造性的问题。

3. 渠道。选择社交媒体、健身博客和网红伙伴，这些人会将信息传递给受众。

4.资源。根据渠道的选择分配预算（这往往是所有组织中最有争议的问题）。

训练LLM学习新流程。你可以通过让它在提示的上下文中浏览一组示例，教会AI如何执行任务。这叫作“上下文学习”（in-context learning），这样你就可以调整预训练的LLM，如GPT-4、Claude和Llama，而跳过调整参数这一偶尔费时费力的过程。例如，研究人员在《自然》杂志发文称，他们利用放射学报告、病人提问、进展记录和医患对话的例子给出提示，向LLM演示了如何总结医疗信息。之后他们发现，81%的LLM生成的摘要会等同或优于人类生成的摘要。

当用户从使用简单的问题或指令开始，逐渐以越来越复杂和细微的方式描述任务时，互惠学习随之产生。用户可以添加上下文，调整措辞，看看模型如何回复，进行测试，直到得出理想结果。

获得新的融合技能

要广泛掌握生成式AI，不仅需要企业的大量投资，还需要个人的主动性、学习和努力。虽然少数公司正在提供相关培训，但大多数公司还没有制定出健全的计划。事实上，2024年对七千名专业人士的调查中，我们发现，虽然94%的人表示他们准备学习与生成式AI合作的新技能，但只有5%的人表示，自己的雇主正在积极开展大规模的员工培训。因此，我们中的许多人还是要自力更生，跟上LLM的快速发展，以及将高水平研究转化为各种工作和行业实践的步伐。

接下来：获得为实际工作流程和多模态大型语言模型(MLLMs)进行思想链提示的技能，这些模型集成了不同类型的数据，如文本、音频、视频和图像，同时还提供了这些格式的输出。一组研究人员发现，思想链提示将MLLMs的性能最高提高到了100%。早期采用者已经在测试这些方法，不过还不够成熟，无法广泛采用。

AI革命不是正在到来，而是已经到来。领先的公司正在利用这项技术重新构想跨行业、跨职能和跨岗位的流程。生成式AI大大提高了标准，要求我们用AI思考，保证我们信任它，并不断对其进行量身定制，来使自己表现得更好。尽管生成式AI是在人与机器间建立更多共生关系的延伸，但它在技术史上也是独一无二的。没有任何一项重大创新能以这样的速度发展。知识工作的变革速度之快、力度之大，甚至超出了我们许多人的想象。做好准备，未来商业的驱动力将不仅是生成式AI，更是懂得如何最有效使用这一工具的人。

关键词：AI

詹姆斯·威尔逊（H. James Wilson）保罗·多尔蒂（Paul R.Daugherty）| 文

詹姆斯·威尔逊是埃森哲研究部全球技术研究与思想领导力董事总经理。保罗·多尔蒂是埃森哲首席技术和创新官。他们是《人+机器：重新想象AI时代的工作》（Human + Machine: Reimagining Work in the Age of AI，《哈佛商业评论》出版社，全新补充版，2024）的合著者。

飞书、DeepL | 译孙燕 | 编辑

《哈佛商业评论》中文版联系方式

投稿、广告、内容和商务合作

newmedia@hbrchina.org