2024年,很难遇到不谈AI的公司。但你同样很难遇到,一家0研发基础,却要自己动手接入AI的公司。

这种即便在AI时代也罕见的故事,来自于一家名为ABC的公益咨询机构

ABC——美好社会咨询社(以下简称「ABC」)成立于2008年,是国内最具影响力的、服务于公益组织的咨询机构之一。

过去16年里,它的全职团队维持在个位数,主要通过招募志愿者的方式,为300+社会公益组织提供管理咨询和研究服务。

显而易见,代码能力并不是ABC的擅长之处——它的长期志愿者们,几乎都没有研发背景。

但就是这样一家机构,开始在2024年尝试通过自己的力量,接入AI。

打开网易新闻 查看精彩图片

*数字化公益创造营的一次深圳线下工作坊合影

不仅仅是单个企业,整个公益行业的数字化水平,都不在千行百业之前。

腾讯基金会去年调研1212家公益机构的结果显示,有近半数的组织,在三年内才开始使用在线会议等数字化产品。

还有2%的组织,没有使用任何常见的数字化工具/服务。

但ABC在这两年的咨询服务中发现,越来越多的机构开始希望了解数字化。同时,它们也想找到适合自己的工具,帮助管理企业知识、招募志愿者等。

ABC自己也存在类似痛点。

经过16年,它服务了超过300多个公益机构,积累超6000个志愿者,并设有总部和北京、上海、成都、深圳、广州、杭州六个分社,及数字化创造营、公益创投两个线上分社。

但六个不同城市的地域间隔,让总社和分社间的协作和信息流转变得困难。

再加上,ABC约每三个月招募一次项目志愿者。成员流转率非常高,带来信息难以沉淀、知识难以传递的压力。

于是在2023年底,ABC的数字化创造营决定打造一个能够精确、迅速回答志愿者问题的对话机器人(Bot)。

打开网易新闻 查看精彩图片

(ABC的机器人Bot)

基于大模型做一个Bot,在被AI信息狂轰滥炸圈内人看来,肯定不算"新锐"。

但ABC数字化创造营的挑战在于,它不仅没有全职的研发人员,业务也强依靠缺乏开发能力的志愿者。

要自己动手,他们只能选择基于大模型的0代码开发平台。

ABC数字化创造营的5位志愿者负责了这次的"开发"工作。

这些非开发背景的志愿者调研后,选择「扣子」平台作为开发平台。

"ABC之前的文档沉淀在飞书上,扣子理论上能最快打通飞书,又有大企业背书。"项目发起人、ABC数字化创造营志愿者Yvonne告诉我们。

和飞书一样,「扣子」是字节旗下的产品,主打"无需代码、轻松创建",是目前国内最知名的AI应用开发平台之一。

但这一Bot项目正式启动于2024年初,当时的扣子也处于功能并不成熟的"雏形期"。

那个时间段,作为AI小白的项目成员们,不仅要在数百个层层嵌套的飞书文档中清洗数据,还要处理扣子平台中难以兼容飞书、Excel表格解析失败等琐碎问题。同时,他们还要掌握Prompt工程,尽量减少大模型的幻觉。

"仅仅筛选、调整、清洗各种文档中的数据就花费了一个月。"Yvonne说。

到了2024年夏天——也就是项目启动后的半年,这个小小的Bot伴随着扣子平台的迭代,经历了数据处理、模型测评、精准度设定等等流程,终于在20个问题的测试集上,达成了90%的准确率。

(测试集中的部分问题示例)
打开网易新闻 查看精彩图片
(测试集中的部分问题示例)

但让Bot基本准确地回答问题只是第一步。大家接下来的重点工作是,通过加入主动推送功能,让更多ABC的志愿者们,能够真的在日常习惯使用Bot。

当这一步走通,他们还希望把这套构建AI Bot+知识管理的方案,输出给其他公益机构。

一个公益咨询组织花费半年做出一个Bot,在动辄造神的AI时代,着实算不上fancy。

但可贵之处在于,这是个非常琐碎又异常真实的案例。

它告诉我们,在AI圈讨论"Scaling Law失效"、"打造世界模型"等尖端问题的同时,普通的企业和组织,是如何以"愚公移山"般地朴素模式,拥抱AI。

以下是「四木相对论」和「ABC数字化创造营」的对话:

当AI小白,遇到"雏形版"扣子

当AI小白,遇到"雏形版"扣子

四木相对论:首先还是比较好奇,我们当时为什么要做一个基于大模型的Bot?

Yvonne:我们的业务和客户的业务都需要这类产品。

ABC的“数字化创造营”,是一个通过志愿者,给公益机构提供数字化咨询服务的组织。过往做项目的时候我们就像咨询公司一样,主要根据需求做咨询。

但后来我们发现,很多公益机构不仅需要咨询,还有很强的落地诉求。简单来说,他们希望我们能直接给到一些切实可用的工具。

做AI Bot这个工具,也源于当时看到的这一类需求。

大部分来找ABC的机构,本身已经运行了三五年甚至10年了,有很多已经跑通了的项目。

但是机构里有价值的信息,比如项目是怎么运作的,这些信息可能都只是在机构负责人、或者关键的一两个骨干手里。

每次当他要做一个同类项目的时候,都会面临骨干可能离开了,这个知识就消失了,又或者机构负责人特别忙,根本就顾不过来的情况。新接手的人,往往没办法去承接这些知识,对组织的信息传递和知识积累都有很大影响。

ABC也面临同样的情况,所以我们去年底做了一个项目,就是梳理ABC自己的知识。

但梳理之后,我们发现大家在应用上还是有很大的困难。当时我们做出来的是一个基于飞书的大文档。这些文档层层嵌套,里面有一两百个小文档。对ABC每个咨询季招募的新志愿者来说,直接提供这样一个大的文档,阅读负担很大。

而且这些文档中的大部分知识,往往只有工作场景中才会用到。如果在培训中提供这样的文档,很多人在需要时已经想不起来了。

这种情况下,他们通常会去询问机构的老志愿者或全职人员。

一方面,必须找到准确的人。如果这个人之前没有做过相关事情,或者太忙,新人可能得不到正确或完整的信息。以 ABC 为例,我们可能历史上已经做过几百个项目,有很多不同模块的项目经验,但几乎没有一个志愿者可以完全了解所有项目,也很难掌握机构的各个方面。

这种情况下,如果能有一个AI Bot有这些信息和知识,那么就可以帮助我们提效。

而且,ABC数字化创造营的定位是为外部机构提供解决方案。如果我们自己都能用起来这套方案,那么之后也可以提供给其他咨询机构。

四木相对论: 这个需求是刚性的。但我们没有AI的技术经验,这件事又怎么解决?

Yvonne:首先,我们觉得 AI 可以解决这类知识流通的问题。

而且,刚好在我们要动手做知识管理这件事的时候,Coze的国内版——扣子刚好上线了。这个平台理论上不需要写代码,所以我们就开始找一些内部的同学一起研究这件事。

四木相对论:AI应用开发平台2023年初的时候就有一些。年底OpenAI 发了GPTs,又出现了几家。为什么选择了扣子?

Yvonne:我们在用扣子的时候,同时也调研了其他几家。当时会觉得,如果是小公司的产品,可能收费会比较快。大厂可能会在卷到后面的时候收费。

另一个就是担心小公司会倒闭。比如我们当时看到一款小公司的产品,已经商业化,一年收小几万块,但是这个公司我们不太了解背景,也不知道它未来会怎么发展。最后就决定还是看大公司的产品。

在大公司的产品里也没有太纠结。ABC很多文档本身就在飞书上,当时天然觉得飞书和扣子打通的概率相对会高一些,用起来会比较顺手。

四木相对论:刚开始用扣子的时候,你的感受怎么样?

Yvonne:说实话,当时扣子还比较单薄,不能直接插入飞书文档链接。我们需要将飞书文档下载成 PDF 或转换为 TXT,再导入到扣子中。

所以,我们第一个版本确实花了很多时间处理琐碎的工作。比如飞书文档里有大量的嵌套链接,需要一个一个打开整理,再转成 Word 或其他格式,单独导入扣子。

四木相对论:等于你们在自己做一个知识库的梳理工作。这里大概会有多少文档?怎样圈定范围?

Yvonne:圈定这个范围非常重要,不仅影响我们的工作量,还关系到能否满足用户的预期。

ABC 已经有 16 年的历史,积累的资料非常庞大。我们需要清晰定义Bot一开始能交付的内容,避免用户频繁提问却得不到答案的问题。

我们设定了一些范围,区分了Bot一期和Bot二期的目标。

一期主要解决总社和各地分社的协同问题,文档范围集中在机构的基础信息和事务性内容,比如报销流程、开志愿者证明的流程、成熟的咨询流程和角色分工介绍等。这部分的内容非常关键,因为机构需要持续招募志愿者,大家需要了解这些。总社和分社之间的协同,也需要这些内容。

但一期并不包括具体项目的知识资产。比如,某个项目中的客户问题和我们的解决方案,以及某些部门的业务经验,比如 PMO 的项目管理指南,这些内容都没有纳入在一期里。

一期的目标,主要是让更多分社和新加入的志愿者,快速了解 ABC 和总社的业务。

四木相对论: 当时整理这些文档,需要细致到怎样的颗粒度?

Yvonne:首先要了解这个场景的业务情况,所以我们找了ABC日常参与志愿者答疑较多的两位全职同事,请她们帮忙筛选大家询问频率最高的问题,从中挑出最重要的问题,再找到相关文档。

最后筛选了约 200 个文档,保留了 10 来个核心文档。这些文档很长,总字数有好几万。

而且,文档们是层层嵌套的。一级目录是基础介绍,二级是子项目,最多到三级。比如品牌宣传部,一级目录介绍品牌宣传部的职责,二级目录是年度规划,三级可能是具体的物料,比如 Logo 和模板。

当时遇到的问题是,这种层层嵌套的文档是否需要全部整理。有些文档还嵌套了大量 PDF 文件,这些都需要额外处理。

还有一些图片,当时因为平台功能所限,我们还不能使用 OCR 。整体进行了两轮处理。首先把首页所有内容整理成 Word 文件,导入扣子的后台。然后是二级页面的文档,我们筛选了一些最重要的,比如新人文档和报销流程,整理和导入。

四木相对论:听起来不是一个很丝滑的体验。

Yvonne:处理数据花费了较多时间,整体算下来得一个多月。后续扣子平台在不断迭代,但一开始我们用的时候,只能输入 Word 格式。后来扣子刚刚能够支持多种格式输入的时候,效果也比较一般。

拿Excel举例,理想状态是,我们用的时候能够像 Excel 一样检索表格中的任意内容。实际上,扣子当时只能检索表格的一列,其他内容无法识别。

就等于说,一个表格中存储了小明的姓名、性别、年龄信息,必须搜索"小明"的名字才能找到对应数据。如果搜索性别“男”,就找不到"小明"了。

最后我们没办法,就采用了一种简单粗暴的办法。就是把需要用的表格合并成一列,强制让扣子索引。

而且,我们还花了一些时间研究链接如何被机器人读取。链接只是其中一种格式,文档中还可能包含图像、表格、PDF、PPT等内容。

针对不同的格式,扣子的解析效果不太一样,当时出现各种Bug,我们只能说摸索出一些使用规则,比如将链接统一用飞书文档导入,图像放入Word文档中。

四木相对论:听起来当时我们需要适应扣子平台的地方不少。后来这些体验有变好吗?

Yvonne:其实我在这个项目中感受很深的一点是,虽然前期有点熬人,但扣子每个月的确都在快速迭代。比如最初,它的OCR功能对图片识别很差,后来,我们可以上传图片并为图片添加标签。

特别是在4到6月这段时间,我们明显感受到,每个月甚至每周扣子都会有一些迅速的迭代和升级。

四木相对论:有没有哪次升级让你印象特别深?

Yvonne:比较大的更新,说实话还是模型层提供更多选择的那一次。当时我们尝试了不同的模型,确实发现新的模型在某些问题上的效果更好。

这些感受不是纯感性层面的。为了客观测试机器人Bot的效果,我们制作了一个20道题的测试集,类似于考卷。这个考卷主要考察三点:知识库的搭建方式、模型选用的内容、以及如何编写Prompt。

我们创建了四个版本,交叉使用了不同的知识库格式和模型类型。通过测试,我们最后选择了其中的一个组合,但这个组合仍然有优化空间。

四木相对论:这里的优化空间指的是?

Yvonne:当时在20道测试问题中,机器人Bot能回答大约一半,也就是50分吧,还是没有及格。

理想效果应该达到80%-90%的准确度。

四木相对论:接下来,做了什么提升效果?

Yvonne:50分的Bot经常会胡言乱语。比如我们问一个基本问题:ABC的总部在哪,它编了一个朝阳区的地址出来,但我们的地址其实在海淀。

当时我们觉得,底线是希望这个Bot不要骗人,就是希望它不知道答案的时候,就说不知道。基于这个目的,我们要求它认为置信度不高的东西,就不要再给出答案了,但是可以指引志愿者去找官方邮箱。

这样做了之后,它确实不太会胡言乱语了,但它会经常告诉提问的人,这个问题建议联系XXX。但有时候,这个XXX的联系方式也会查不到,说明我们的资料库存也要经常更新才行。

四木相对论:但我们最早的时候,已经和相关的内部员工一起筛选过资料库,理论上应该是准确的。

Yvonne:我们的一期产品,当时做的时候还面临一个比较大的困难点。就是当我们去了解什么方面的问题会被经常问到的时候,内部的员工也是很模糊的。

因为他平时收集问题的渠道也很零散,有的人在微信上问,有的人是在群里问,有的人可能是在邮箱里问他。如果直接去问,什么是你经常被问到的高频问题,他也回答不出来。

后面,我们希望ABC的Bot可以自己统计过去半年或者一年大家问到哪些问题比较多。现在因为这个项目的人员比较少,还处于待启动的状态。

四木相对论:我们有用Workflow的功能吗?

Yvonne:我们现在用的功能相对还比较简单,主要是Prompt+知识库+模型,没有把工作流这件事情弄得很重。用workflow的话,功能会增加,出问题的概率也会增加。

我们之前尝试了,中间插入几个节点去记数据,模型出来的答案反而出了问题。现在试下来,要有好效果,还是要在文档、数据层面下功夫,Prompt能做的事情也不是很多。

总体到了夏天的时候,我们觉得优化下来可以达到80分的水平。

也就是10个问题中可以出8个准确可用的答案,剩下两个问题会回答它不知道,或者给到的回答没有那么实用,但整体是可用的。

让普通人信任Bot,不是件容易的事

让普通人信任Bot,不是件容易的事

四木相对论:达到80分效果之后,我们在最近这三个月里做了什么?

Yvonne:到了七、八月份,首先我们想花心思在内部推广一下,看大家用起来大概是什么样的效果。

第二件事是,之前的志愿者到期了,我们做了新的招募,换了新的小伙伴继续做Bot。整体这个项目组大概保持在5个人的范围,也都是兼职。

四木相对论:二期的小组成员,会倾向多招募一些代码开发背景的同学吗?

Yvonne:其实大部分都不是。一期产品有一些社会学、计算机或者商科背景的学生,还有一些产品经理和咨询从业者。

相比较一期,二期的同学对AI的了解会比较多。

这个事情可能也和阶段有关,首先我们一期的产品做出来了一些东西,大家也会看明白这个事情到底在做什么。第二是这一年AI的变化还蛮大的,各个公司都在跟这件事。行业的热度也让我们招到更多对这件事感兴趣的人。

四木相对论:内部推广方面,我们是怎么做的?

Yvonne:我们聊了一些在一线做咨询项目的志愿者。也是在这次访谈中发现,很多之前的知识文档,存在一个问题,就是生产的人和使用的人是两拨人。往往是生产的人生产了一大堆,但用的人感知很弱。

比如我们之前用的总社和分社协作文档,其实会在新人培训的时候告诉大家有这个文档,日常更新的时候也会在群里说这件事。但在这次用户访谈的时候,就会发现很多人因为漏过消息,或者人员变动不记得有这个文档。所以,我们确实真的希望这个Agent或者说Bot能在机构里面用起来。

但产品被动地让别人去想起来用,大家都可能想不起来。我们现在希望让大家更容易地触达机器人,或者反向说,机器人能不能主动触达大家?

所以,我们还研究了推送的能力。也就是让一个Bot产品,主动给志愿者推送内容。

这是我们二期的重点之一。

四木相对论:我们做了哪些主动推送的事?

Yvonne:ABC有一个年历。现在是2024年底,年历上会有2025年的全年规划。也就是会列出1月10日这一周做志愿者招募,20日项目开启之类的信息。

我们把这个信息放在Bot里面,它每天有个时间点会推送,告诉相关人员说这一周有某个事情。

ABC的一个特点就是,有一半的人基本是围绕项目工作的,他的工作和项目是强关联的。还有一半的人,比如品宣、研究部的同事,大家平时和项目的关联没有那么强,但他们也会很想知道这个机构发生了什么,看看有什么和自己相关的事情。

我们也是想利用这样的一个机制,让这个机器人Bot成为整个机构的一个节点。

四木相对论:这个功能现在的进度是?

Yvonne:我们已经做出来了。现在的推送结合了扣子的Workflow,但还没有正式推广。

目前微信推送有点难度,我们希望Bot先主动在飞书里推送,飞书的解决方案我们已经做完了。

整个看下来,我们一期时的调研比较多的是技术方案,包括怎么选模型,怎么去优化。二期反过来做了业务的部分。

一期的时候,我们发现数据才是最大的瓶颈。如果一个Bot里面的数据是不充分的,大家是用不起来的。哪怕告诉他,你这个模型很牛,或者是测试集上已经拿到这么高的分数了,可用的时候覆盖不了员工的真实工作场景,他还是会忘记,很难持续用起来。

我们想尽量把大家工作当中一些高频的知识场景积累下来。

四木相对论:这件事情可能需要和ABC内部的业务部门沟通梳理知识。

Yvonne:对,如果能通过对内的合作,抽离出一套模版和方法论,就可以通过项目的方式对外输出了。我们最终的目标还是希望它能够在外部的公益机构用起来。

现在作为试水,我们找了ABC志愿者管理这个部门的同学,和他们一起把有价值的、和业务结合比较深的、适合放在Bot内的资料梳理出来。

目标是希望这个部门的同学以后做项目的时候,遇到一些不懂的资料,都可以优先来问这个Bot,感受到这个Bot里有比较深入业务的内容。

四木相对论:为什么选这个部门?

Yvonne:因为它相对来说是一个比较成熟的部门,文档建设得比较好。和这个部门合作,大家要额外做的知识沉淀工作相对少,更多需要看怎么把这些知识结构化地放到 Bot里面。这一步我们现在有经验了。

第二,我们希望能通过这一次的交互过程,出一套解决方案。这个解决方案的目标是,希望以后对外部其他机构提供Bot服务的时候,能快速地把我们需要的资料都列出来。

现在假设的客户画像是:知识管理背景不强的机构。比如,这个机构本身没什么知识沉淀,或者说沉淀了一些,但可能也是零散沉淀的。

所以这次我们希望通过和内部的业务部门去对接,了解他们的业务和知识沉淀细节。然后我们再设计一套SOP。在这之后,我们就可以做到,告诉客户建一个知识库有几个大的步骤,比如第一个步骤叫做「了解业务」,得知道哪些知识是值得被沉淀的,因为可能知识超级多,但能够复用的知识没有那么多。

对每个机构来说,可能需要三、五个问题能够帮自己快速定位,哪些东西是值得被沉淀的。

四木相对论:现在看下来,哪些知识会比较重要?

Yvonne:我们认为重要的东西,SOP是一种,关键步骤里面的关键资料(比如对接人、客户文档、核心数据)也是一种,还有复盘也很重要。

我们认为应该有一个结构化的问题list,能够帮助到客户。这个list是一个模板化的东西,以后客户可能就对着list回答一些问题,就能很快地沉淀1个最基础版本的知识库了。

四木相对论:如果是外部的机构,它沉淀数据的方式不是飞书怎么办?

Yvonne:不影响。只要文档的结构模块这些东西都在,它影响的无非是你上传的格式。

关于他们是不是用飞书这个问题,想得还是有点多。大部分公益机构可能还在一个很早期的阶段。现在大家并不是说已经选用了企业微信或者飞书,在上面写了一大堆的文档。往往是,这个机构就没有"选用"这个步骤,或者它这个步骤是很去中心化的。

比如说小A用惯了腾讯文档,就在腾讯文档上记一点东西,小B用的是飞书,他就在飞书上记录,小C用的是印象笔记,它是个离线的工具。还有很多人用的是word和Excel,随机记一下。大家可能就用网盘管理。

也就是说,大部分机构的数据是孤立的,不存在组织的倾向。还没有讲过要把所有的资料放在哪个地方,怎么管理怎么用,其实没有这样的规划。

四木相对论:这种数字化基础,如果是一些大的公司去服务,会说太难做了,或者不值得做。

Yvonne:也有好的方面。公益机构和企业有点不一样,企业是往往已经规划好了,肯定有很多的历史包袱在。公益机构做啥都是从0~1,包袱也比较小,不太存在说我从A平台迁到B平台工作量太大这种事。各有各的bug,但各有各的好处。

AI这件事情上,公益机构不太会有历史依赖,我觉得这是一个优势。

第二个优势是可能大家在数据上会开放一些。对公益机构来说,一些受助者的数据可能是相对敏感的,但是大家对做项目的sop和经验,不会心态很保守。他们不像很多公司,会觉得这些数据不应该被机器拿走学习,反而会觉得也是一种贡献。

四木相对论:回到我们自己做的事。如果我们内部只用扣子,还会存在什么担忧吗?比如你提到费用,扣子现在也收费。

Yvonne:我们之前会有点担忧收费这件事,但现阶段是觉得,用量可能也要达到几万的或者几十万的级别,才会有一个很明显的费用。这个数据目前还是有距离的。

现在最大的问题,还是没有很多人在用这个产品。很多Bot和所谓的智能体都存在这个问题。就我们看到的活跃度来看,各种Bot都有很大的提升空间。

四木相对论:属于整个行业的普及问题。

Yvonne:其实潜在用户使用AI产品的心理成本很高。

我们做用户访谈的时候,已经很明确地给了用户场景。告诉他,他是一个机构的志愿者,如果有什么问题可以问。但其实,很多人在用的时候真的不知道要问些什么。首先他需要回想,另外他还是没习惯,对这种工具的信任感还是弱的。

信任感弱指的是,他会觉得Bot回答不出来他的问题,得先试才能知道。但要做到试试看,很多人也要迈出很大一步。

四木相对论:现在这个Bot方案有进行对外推广吗?

Yvonne:对外推广有聊一些,但是没有大范围的做。现在的潜在客户有几种不一样的反馈。大多还是觉得这个东西很高端,但是自己的机构可能还连知识库都没有。或者说,他们的知识是分散的,Bot和机构当前的发展状态有一点脱节。

其实ABC秋季有两个项目在给客户做知识库,也就是做Bot的前续阶段。因为我们也发现了其实机构可能需要AI Bot,但大家也不可能越过知识库直接去做Bot应用。

第二类机构比较先进。我遇到过一个机构,他们的负责人本身是有咨询背景的老前辈,说他已经在自己的机构推广Bot,但在推广中也遇到困难。就是产品做出来了,但用户习惯还没培养起来。他的感受是,要让用户习惯这件事,还是需要有更多人投入。

这件事也让我们发现自己的问题是有共性的。很多普通一线的员工,你让他学一个新工具,他还是有很高的心理门槛。比如用着觉得不好用了,你又让他再去学怎么调试,这些事情都是很困难的。

大部分人的本职工作其实和IT没有关系。使用数字化工具,对他们来说可能是一个额外的工作量。

再加上,这类产品早期的学习门槛也很高。我们觉得未来ABC再去提供这类咨询服务的时候,重要的不仅是交付工具,也需要提供后面的培训以及运维。

当然这件事对我们的人力来说,还是很有挑战的,目前是想看后面能不能做到至少培训或者运维一个月。

四木相对论:这种情况也超出了很多人,尤其是AI和互联网从业者的日常认知。

Yvonne:这两年经常看到很多人在说AI会取代自己,或者让自己的工作没有价值。但我觉得,可能有这种感觉的人大概率还是互联网从业者。

走出这些行业,遇到更多的普通用户就会发现,一个新技术驱动的工具,大家要用起来不仅有学习门槛,还有心理门槛,信任也是一个很大的关卡。

我们现在还是在探索让大家初步用起来这件事。

如果有10个人用起来了,这10个人又怎么养成习惯?我们在想这样的问题。