如果说过去的文章更多的是基于过去十年产业经验对未来做的推断,那12月当产品收入达到某个量级后就相当于是推断得到了检验。这时候想到的反倒不是什么未来愿景,而是主席当年的那句老话:星星之火必将燎原就好像看到了许许多多的火种,潜藏不太容易看到的层次上,一闪一闪冒着微弱的火光

我对AI的信心从来没像这一刻这么强。这不是激进,和这篇文章要一起看的是:为什么说AI现在还不行!看着有点矛盾,但其实是一个事情的正反两面,统一于尺度判断。

肯定会迎来一个AI原生应用的浪潮

之前文章更多是从图灵测试2.0和智能原生到底应该定义成什么样子来做解读,这次我们换个方法,举一个发生在琢磨事这号对应群里的具体且真实的例子。很不阳光,但仔细想想却很有意思。

背景很简单:琢磨事这号有个读者群,群并没什么特别的商业化目的,纯粹聚集了些对AI感兴趣的同学日常聊聊天,比如做些文章中观点和产业趋势的探讨。入群的也都是做这个行业并且对AI有点想法的同学。

然后有趣的事情发生了。

不知道什么时候群里混入了一些特别的人。

我个人作为群主一般大家转发到群里的文章等都会看看,时间一长就发现有几个同学不对劲,他们不定期发文章,可总的频率很高,每次发的文章标题很火,但内容很稀薄,也很短,内容中间必然带广告。除了发文章保持绝对沉默,从不发言。

这群是只要不骂街,谁爱说点啥就说点啥的风格,所以最初我也不怎么想理会。

可在某个瞬间,我突然意识到这不是真人,肯定都是些机器人。

从这个角度往回解读,就发现虽然套路有点无赖,但确实是一个很小的AI原生应用。纯血的。

我们想象下它后面的结构。

必然有一个联通真实世界捕捉热点的感知部分,从中选出对应的选题。

针对选题自动生成内容。

生成内容的同时用爬虫爬取对应的群,想办法加进去(反馈环节)。这时候200人以下的群只要扫二维码就能加入,所以估计是重点关注对象。

进一步还要标识对应的群的属性,然后和文章的内容做匹配,再之后才是一定频率的不定期发送。

这么个应用,核有三个部分:一部分对大模型进行调度负责扫描和生产内容;一部分是日常任务比如发文的原则,一部分同现实进行接轨等。

对现实进行感知,基于大模型进行内容生产,然后内容反馈回现实的世界,并在浏览的环节嵌入盈利环节

典型新式智能原生应用。就是你很难想到会用这么个形式冒出来。

上面说的结构大概率和之前说的Agent结构80%雷同:

打开网易新闻 查看精彩图片

和过去应用对比那里不同了

从技术角度看,基于过去的技术,不用大模型也不是完全不能做,尤其是对于做爬虫的兄弟。但过去很难这么做出钱来。(即使现在我也不知道这玩意能不能赚到钱,很想找到这帮哥们问问数,就当骚扰我好几天的成本了)

原因特别简单:当AI不足够成熟,你其实做不出那么多订阅号文章,并且还都匹配实时热点。

所以说这种应用是真的新类别的应用(当然也可以叫Agent)。它从感知到生产到盈利全场景是闭环的。

从我们经常说的图灵测试2.0的视角就是:它能够在一个完整商业场景上闭环,不需要人的介入,并且近似全自动的行动。行动的结果可以创造收入。

一旦这种场景成立,那这种应用就可以拿走对应那个场景下的,智能边界内的价值。

做上面这类应用的同学,未必会像我这做战略出身的人,天天琢磨套路,更可能就是觉得这事能干就干了。现在还少,但当广大产品和程序员同学了解到打造这么个东西成本可能和旅游一次差不多的时候,估计做的人会越来越多。

可这种敏锐感知不是没限度的,通常最终还是会贴着套路走(经常说的从特殊到一般,一般再到特殊的过程)。

上面这个例子正好契合了之前提到的套路的关键点:

纯粹数字空间,幻觉影响不大,通过图灵测试2.0等。

智能原生应用不是AIGC工具

还是要区分下这类应用和纯粹内容生成的工具。

虽然两者都顶着AI的帽子,但却有本质性差异。

AIGC工具本质上算法驱动,只有极少数的人在天时地利具备的情况下才可能。商业模式极其难以跑通。

智能原生应用的关键则落在应用上,是综合了技术后的产品力,这种产品力要能打破最后那1毫米的障碍。其实大多数人都能做并跑出现金流。这事我们并不陌生,当年的APP不就这样么。

过去是英国人在一战的时候发明了坦克,但坦克的真正发扬光大其实要等待德国人弄出来闪电战。

AIGC工具和智能原生应用的差别与此类似。

AIGC工具是坦克,而每个智能原生应用都是一场独特的战役。

对于AIGC工具,模型的独特性是关键的,对于智能原生应用,深研模型本身可能反倒是有害,更需要往外看,在技术和场景的结合处定位准。

顺道一说,智能原生应用也不是GPTs。

加上GPTs的chatGPT自己其实就是一个超级智能原生应用,覆盖最为通用的场景。

这就是智能原生应用所隐喻的广阔空间

几乎每个领域都会出现这类更加智能和自动的智能原生应用。

所以现在刚刚露头的各种尝试才是星星之火

并且随着大模型能力的持续提高,火苗只可能越来越大,而范围会越来越广。

会从上面那个极其无聊的场景扩展到各个方面。而当下差不多就是Windows应用的1995,移动互联网的2007。

真做起来还是很费劲,但能做了。

对于智能原生应用而言第一关键的是图灵测试2.0。

虽然前面提到过几次这里还是要再说下,因为它实在像风筝的那根线一样,决定了不飘不行、但飘的太远也不行的尺度。

什么是智能原生应用和图灵测试

智能原生应用不飘是不行的,因为过去就没有这玩意,不飘,你就想象不出来产品需要定义成什么样子。

太飘也不行,太飘有点像本来想开饭店,然后发现路不行,决定先修路然后再开饭店。(大部分做智能原生应用的会很像开饭店的那个,OpenAI这些才是修路的)。

这样一来就需要一个中间的尺度。

这个尺度决定生死成败,重要性排第一。

第一决定在特定时间长短事到底行不行,第二决定了矿究竟有多大。

还是前面那例子,那个场景其实能通过图灵测试2.0,然后矿究竟大不大取决于你内容生成的质量。

我们从应用这个角度重新描述一下图灵测试2.0。

图灵测试2.0

原始的图灵测试这样:

打开网易新闻 查看精彩图片

这是一个纯粹的智能测试,本质是追求在封闭系统里面的逻辑自洽性。

现在我们把Agent类似的概念加入这个测试:

打开网易新闻 查看精彩图片

这就是图灵测试2.0。和1.0相比核心差异是什么呢?

去幻觉,有边界。

1.0是一个凌空的系统,具有合理性的幻觉其实有助于通过测试,但2.0不行,测试者同时从真实场景和被测试者接受反馈;其次就是测试边界的限定要求更高的智能深度,这很像赵括学兵法能说的天花乱坠,但不一定能打仗;会打仗不一定兵法上什么都懂,但水站、陆战、马站好歹得会一个。

还是上面那个例子,这个例子下1.0和2.0共通的部分是生成的内容人要能看,2.0独有的部分是你生成的内容得是符合基础事实的,也要有点特色和风格,因为你的受众不是就看你,也看别的文章,纯胡扯广告估计点击率会低。

如果纯粹的胡扯被认为是个人,从技术角度可以算通过1.0测试,但从商业角度则没那么有价值,转化率就差。

自己对自己的实现

能否通过图灵测试2.0的判断与AIGC能力其实是绝配。

前者定义了技术在商业场景下的价值,而AIGC能力其实降低了实现它的成本。

从这个角度看技术内定了自己的实现,这种必然性,不管从因果角度还是从偶然的角度解读都是很有趣的事情。

小结

即使方向对,也有能力,真做起来也会万分痛苦,这会像在无人区里奔跑。但这也正是价值所在,当所有的隐性知识都变成显性知识之后,绝大部分商业价值会消失,会变成一个角力的游戏,那就无趣的很了。

最后如果觉得上面的文章言不尽意,那么下面这个组合可以读读,这其实说的是一个事的不同侧面。我比较确定他们是对,并且在这个早期是有价值的。

与此相关的一套文章包括:

什么会主导AI类公司的兴衰起伏?

举个例子:智能原生应用的脑、手、意

从手机App到AI原生应用

AI不缺概念,甚至不缺技术,但实在缺产品