斯坦福大学研究人员开发的健康coaching应用Bloom,帮助用户挖掘自身的运动动力。
市面上已有琳琅满目的健康应用和wellness coaching设备,这个赛道看似已经趋于饱和。
然而,斯坦福大学计算机科学系研究生Matthew Jorke指出,市面上的商业健康应用往往将coaching视为一个优化问题。他表示,这类应用会通过收集足够多的用户数据,让聊天机器人教练开出一套训练计划,然后期待用户照单全收。"但人类行为并不是这样运作的。"
根据Jorke对健康教练的访谈,"采用引导式、赋权式而非指令式的方法,对用户效果最好,尤其是刚开始接触体育锻炼的人。"
为了打造一款符合上述专家理念的大语言模型健康coaching应用,Jorke和同事们设计了Bloom。这款应用将设计精良、功能先进的健身应用与一个名为Beebo的大语言模型coaching智能体相结合,在应用内以一个小蜜蜂图标呈现。
Beebo会向用户提问,了解其目标以及已经尝试过的方法,并给予赞美和共情回应。在获得用户授权后,Beebo还会为用户制定每周锻炼计划并添加至日历,用户可通过聊天界面轻松修改计划内容。
斯坦福大学计算机科学系副教授、相关论文的资深共同作者Emma Brunskill表示:"这款应用将人的自主性和行为改变置于核心位置,帮助用户识别并实现自己的目标。"该论文荣获2026年ACM CHI人机交互系统会议最佳论文奖。
Bloom应用包含与AI教练的文字聊天功能,以及健身计划和进度追踪。
研究发现,能够使用大语言模型coaching功能的用户,其身体活动量的提升幅度与仅使用无大语言模型版本应用的用户大体相当,但前者的思维方式发生了显著转变。Jorke说:"人们开始意识到,体育锻炼是自己能够做到的事,对身体有益,而且能让自己感觉更好。"
随着越来越多的人开始借助大语言模型寻求健康以外各类领域的建议,Jorke和同事们的研究成果提供了一条新的发展路径。"我们在构建这款健康教练的过程中总结出的设计策略,可以推广应用到任何帮助用户厘清自身需求的AI顾问产品开发中。"
从以人为本出发的设计理念
具有人机交互(HCI)背景的研究人员,如Jorke及其合作者、斯坦福人本AI研究院院长James Landay,始终将深入理解真实用户的需求作为出发点。因此,团队构建大语言模型教练的第一步,是访谈12位健康领域专家和10位潜在健康应用用户,探讨什么样的大语言模型教练才是真正有帮助的。由此形成了Beebo的几项核心设计原则:采用引导式方法,让用户主动掌控自身健康;根据用户的独特情况提供个性化建议;以及使用不带评判、充满支持性的语气。
团队还将Beebo的设计与斯坦福Active Choices方案相结合。该方案由斯坦福医学院Abby C. King及其同事开发,已被证实能有效帮助各年龄段、各体能水平的人提升运动积极性。方案的关键第一步是初始访谈,在这一环节,咨询师会收集用户的长期目标、过往经历、障碍因素及可用资源等相关信息。Bloom在引导用户入门的对话中,采用了一种名为"动机访谈"的方法——通过特定的访谈方式,帮助用户发掘自身动力,从而深入了解用户的目标与局限。
然而,将这套方法迁移到AI教练上,并非简单地提示一个通用大语言模型来完成初始访谈就能实现。"那种方式行不通,"Jorke说,"模型容易跑题,非常容易给出未经请求的建议,还会对用户的身份和需求做出预设判断。"
团队没有收集大量入门对话数据来微调大语言模型,而是通过不同的提示词方式进行尝试,探索能否引导模型以动机访谈的风格覆盖所需话题。
他们最终采用的方法依赖两条提示词链。第一条是对话状态提示词链,确保大语言模型在推进到下一个话题之前,充分涵盖斯坦福Active Choices的每个议题。第二条则通过两步流程强化动机访谈原则:一个AI智能体从11个选项中选取合适的对话策略(如提出开放性问题或给予简单回应),另一个智能体再根据该策略生成实际回复内容。
"大语言模型需要这种额外的结构性支撑,才能按照我们期望的方式运用动机访谈,"Jorke说。Beebo还配备了安全过滤机制,防止产生负面反馈或不当体型评论等有害内容。
四周实地研究的发现
在一项为期四周的实地研究中,54名受试者中约一半被要求使用去除了所有大语言模型功能的Bloom应用版本作为对照组,另一半则作为实验组使用带有Beebo功能的完整版本。
Jorke表示,对照组的应用版本已经达到市面上大多数健康应用的水准。用户可以设定目标、规划每周活动、接收提醒,并在精心设计的主屏幕上以花朵生长的形式直观看到目标完成进度。
实验组使用的Bloom在此基础上提供了更多功能。首先是入门访谈,让Beebo深入了解用户情况。此后,Beebo会主动提出与用户共同制定锻炼计划,将其加入用户日历,并设置提醒和通知。Beebo还会通过聊天方式定期跟进,了解用户近况,给予鼓励,并按需制定新计划。这些计划灵活可调:用户可以在Beebo的聊天界面中申请调整,无论是日程有变、天气不佳还是身体不适,都可以随时修改。
"我们特别想研究的是,非指令式的大语言模型能在一款高质量健康应用的基础上带来什么额外价值,"Jorke说,"结果令人意想不到——不是更多的运动量,而是思维方式的转变。"
在调查中,Beebo用户表示对自身活动水平的满意度提升,并越来越相信自己的活动量已经足够且对身体有益,这通常能进一步激发人们持续运动的意愿。部分用户反映,Beebo帮助他们意识到,就连园艺或在厨房里走动也可以算作运动步数。还有用户表示,Beebo的支持让他们感到被个人化对待,将每天收到的消息视为晨间闲聊的邀请。
"随着时间推移,Beebo慢慢帮助他们认识到,自己是有能力的,运动是有益的,也没有那么难,"Jorke说。
Landay指出,基准应用中的一些功能,例如环境感知显示,已在其团队此前的研究中被证实具有显著效果,但在市面上的商业应用中仍属罕见。"将这些功能纳入基准版本,意味着大语言模型版Bloom要超越它其实相当困难。因此,实验组取得的积极结果颇具参考价值,"他说。
未来展望
Jorke认为Bloom在睡眠管理、营养指导或生活coaching等领域具有广阔的应用潜力,但他也坦承,这需要研究人员在专家指导下,针对不同场景开发相应的对话状态提示词链,以确保入门对话不偏离主题。
"我们需要探索更简便的提示或微调方式,让模型在有策略地收集相关信息与主动提供建议和推荐之间找到更好的平衡,"他说。
Jorke还思考着,Beebo可爱的形象是否也在一定程度上助力了应用的吸引力。研究人员对于AI智能体的拟人化程度向来持审慎态度,担忧用户会与之建立不当的情感依赖。但Jorke注意到,用户并没有向Beebo寻求医疗建议或日常闲聊,也没有将其描述为自己的新朋友。这或许是因为Beebo呈现为一个小生物而非人形形象,且其教练角色定位明确。"我们为这些聊天机器人选择的隐喻,以及我们向用户传达其功能边界的方式,实际上可能会全面提升用户的交互体验,"他说。
尽管承认Bloom目前仍是一款研究原型,团队计划在不久的将来向公众开放。从那些了解Bloom的人的反馈来看,市场需求显然是存在的。
"我认为这个项目触及了一种深层需求,"Brunskill说,"每个人都知道运动很重要,人们也希望更加积极地活动,但同时又要应对繁多的时间需求。Bloom试图以一种以人的自主性为核心的方式来解决这一问题。"
Q&A
Q1:Bloom健康coaching应用与普通健康应用有什么区别?
A:普通健康应用通常采用指令式方法,根据用户数据直接开具训练计划。而Bloom内置的大语言模型智能体Beebo采用引导式、非指令式的动机访谈方法,通过了解用户的目标、过往经历和障碍,帮助用户挖掘自身动力,让用户主动掌控自己的健康计划,而非被动执行系统推送的建议。
Q2:Bloom的研究结果显示,使用Beebo后用户运动量会明显增加吗?
A:不完全是。研究发现,使用Beebo的用户与使用无大语言模型版本的用户相比,运动量提升幅度大体相当,但最显著的变化在于思维方式的转变。Beebo用户对自身活动水平满意度提升,开始相信运动是自己能做到的事,并认识到日常活动(如园艺、在厨房走动)也可以算作有效运动,从而更愿意长期坚持运动习惯。
Q3:Bloom应用是如何让大语言模型遵循动机访谈原则的?
A:研究团队设计了两条提示词链来实现这一目标。第一条是对话状态提示词链,确保大语言模型系统地覆盖斯坦福Active Choices方案的每个议题。第二条通过两步流程强化动机访谈原则:一个AI智能体从11种对话策略中选择合适的方式,另一个智能体据此生成具体回复。此外,Beebo还配备了安全过滤机制,防止产生负面或不当内容。
热门跟贴