有一个现象,最近在圈子里悄悄传开了:不少文科生,用AI做出了比专业程序员更好用的应用。

打开网易新闻 查看精彩图片

他们不懂递归,分不清堆和栈,写出来的代码大概率连编译都过不了。但他们做的东西,用户喜欢,留存高,甚至有人心甘情愿掏钱。

一个工作了五年的后端工程师,看着这种情况,内心一定是崩溃的。凭什么?

答案不复杂:文科生从来没有用"程序员的脑子"去想用户。

程序员有一套根深蒂固的思维顺序——先想架构,再想逻辑,再想数据流,最后才轮到用户。用户的感受在整个链条里排名靠后,有时候甚至是"留到上线后再说"。而文科生不一样,他们思考问题的第一个问题永远是:这个人会怎么用它?他在什么状态下打开它?他到底想要什么?

这两种思维方式做出来的产品,从基因上就不同。

今天我想聊的,就是这个"从用户出发"的设计思路里,最核心也最被忽视的一个概念——驱动。

不是Windows驱动。是用户行为模式驱动。

现在的AI应用,大多数都在等你来"伺候它"

2024年到2025年,AI应用井喷。各个赛道跑出了代表产品,AI写作、AI视频、AI设计工具,多到你打开应用市场都不知道该下哪个。

但如果你真的用过一圈,就会发现一个让人憋屈的共同问题:它们都在等你来用它。

你打开软件,面对一个输入框,或者一排功能按钮,然后你得自己想清楚要干什么,填进去,等结果,再看结果对不对,不对再改,循环往复。这个过程,本质上是你在服务这个工具,而不是工具在服务你。

这是工具逻辑,不是产品逻辑。

举个例子。你打开备忘录,随手记了几个字:"明天早上9点开会"。一个好产品,会在你按下回车的瞬间问你:要不要帮你在明天8:30设一个提醒?一个坏产品,是在你打开日历App,手动新建事件,选日期,选时间,填标题,确认保存之后,才姗姗来迟地说"你好,有什么可以帮您?"

区别不是功能,是驱动时机。好产品找到了驱动点,坏产品在等你去找它。

顺便说一句:独立开发者三件套,真的别做了

网上流传着一个梗:很多独立开发者一上来就做记账、日记、Todo,俗称"独立开发者三件套"。这个梗能传开,是因为它说中了一个真实的、反复发生的现象。

为什么独立开发者会扎堆做这三个?原因很简单:需求清晰,边界明确,技术难度低,做起来心里有数。

但这种成就感是假的。因为这三类产品的市场,早就被做烂了。更致命的是,这三类产品的驱动设计,已经被做到天花板了。独立开发者做这三个,更多是在完成一次"我能做App"的自我证明,而不是在解决一个真实的用户问题。

如果你用驱动设计的眼光去看世界,你会发现周围有大量还没有被捕获的驱动点——用户在某个很自然的时刻,有一个很真实的需求,但市面上没有一个产品在那个时刻出现。找到这种断层,比做第481个记账App有价值得多。

我是怎么用字幕驱动整个AI视频应用的

B站上有个叫"大圆镜科普"的账号,做科普类AI视频,质量在我见过的同类里算是顶尖的。市面上的AI短视频工具,套路基本一样:让AI读小说 → 生成剧本 → 拆分镜 → 生成角色场景资产 → 发给视频模型去生成。

听起来挺系统,但问题是:剧本的脑洞在哪里?AI自己编的剧本,创意在哪里?

我最后找到的解法,是把驱动锚点换一个位置——不从故事出发,从声音出发。

流程是这样的:先写口播稿,AI朗读生成音频文件,转成字幕文件(SRT格式),大模型读字幕理解内容走向,AI根据理解生成所需的人物、道具、场景资产图,按照视频模型支持的生成时长切割字幕,AI逐段读字幕生成分镜描述并生成视频片段,最后拼接所有片段和口播音频对齐。

这个流程的本质,是把字幕文件变成了驱动信号。SRT字幕文件是一个"带时间轴的脚本",它包含了:内容说了什么、每句话说了多久、信息节奏怎么分布。大模型读懂了字幕,就读懂了创作意图,剩下的视觉化工作让AI补全。

整个工作流里,还有一套预设的导演风格库。AI在读字幕的时候,会匹配:这段内容,适合哪位导演的调度方式?比如字幕里描述一场大规模战争场面,AI会自动匹配史诗战争片的分镜逻辑。你也可以直接告诉AI:"我要昆汀·塔伦蒂诺的风格。"AI秒懂——超长对话、突然暴力、跳切、非线性叙事、大量流行文化梗,全给你安排上。

这就是字幕驱动的完整形态:字幕文件是骨架,导演风格是灵魂,两者叠加,AI才能生成有质感的视频,而不是一堆画面的堆砌。

驱动的完整分类手册

字幕驱动只是一个切面。当你真正把"驱动"当成设计方法论来用,你会发现这个世界到处都是驱动点。

1. 文件驱动:核心逻辑是"一个文件出现了、被修改了、被删除了,AI被激活"。新文件入库驱动、截图驱动、录音文件驱动、代码保存驱动。

2. 地点驱动(位置驱动):核心逻辑是"你到了哪里,或者离开了哪里,AI知道该干什么"。到达公司驱动、到家驱动、到达机场驱动、出行中驱动。

3. 网络驱动(Wi-Fi / 蓝牙驱动):核心逻辑是"连上了什么网络或设备,AI切换对应的模式"。连接家庭Wi-Fi驱动、连接公司Wi-Fi驱动、连接车载蓝牙驱动、断开固定网络驱动。

4. 时间驱动:核心逻辑是"到了某个时间点,或某个时间段,AI自动动起来"。晨间驱动、工作结束驱动、周报驱动、截止日驱动。

5. 传感器驱动:核心逻辑是"设备上的传感器数据发生变化,AI推断你的状态并响应"。心率驱动、睡眠驱动、运动驱动、相机驱动。

6. 行为序列驱动:核心逻辑是"用户做完了一系列连续的动作,AI认出这个'完成动作'并激活"。关文档驱动、连续阅读驱动、停留超时驱动。

7. 语义驱动:核心逻辑是"用户写了什么或说了什么,AI解析意图,触发对应的工作流"。情绪驱动、意图驱动、关键词驱动。

最被低估的驱动:用户心智模型驱动

前面说的那些驱动——文件、位置、时间、传感器——本质上都是外部信号。它们在说:当某件事情发生了,AI该做什么。

但还有一层驱动,更深,也更难,它来自用户脑子里对产品的预期。这叫用户心智模型驱动。

心智模型是认知科学里的概念,用人话说就是:用户在打开你产品的那一刻,脑子里已经有了一张"它应该怎么工作"的地图。他不会读说明书,他只会按照脑子里的地图操作。如果你的产品的真实逻辑和他地图对不上,他就会感到困惑,然后放弃。

大多数AI应用失败,不是功能不好,是和用户的心智地图撞车了。

驱动设计的三个原则

原则一:找到用户的"最小启动动作"。用户愿意做的动作越小,你的产品越有价值。

原则二:驱动要和场景意图强绑定。驱动本身没有价值,驱动和场景意图的精准匹配才有价值。

原则三:让驱动对用户透明、可控。驱动越智能,用户越容易感到失控。信任,是比功能更稀缺的东西。

未来的交互,会经历三次跃迁

第一跃迁:从"召唤AI"到"AI环绕"。AI会变成环境的一部分,持续感知你的状态,随时准备开口,但又知道什么时候不该开口。

第二跃迁:从"单一入口"到"无界面"。入口消失了。你看着冰箱门说"牛奶快没了",AI记录下来,加进购物清单,查了今天的超市优惠,没有App,没有点击,没有等待。

第三跃迁:从"响应式AI"到"预测式AI"。AI对你的了解足够深,深到可以在你产生念头之前,提前把事情准备好。

最重要的事,是在你敲下第一行代码之前,你要能回答一个问题:用户在什么情况下,会需要这个东西突然出现在他面前?

那个"什么情况下",就是驱动。驱动想清楚了,应用的灵魂就有了。剩下的代码,让AI去写吧,它比你快,也比你不累。