1、今年3月份时,我和李继刚单聊了3个小时,其中提到一个概念“不二”;他后来用Prompt(with claude),生成了下面这个概念解释图——

打开网易新闻 查看精彩图片

2、说实话,这个结果,很超我预期了,因为

1)能用不那么(佛法)术语的形式,来阐释这些东西,到这个程度,是所有没学过佛、甚至绝大多数学过佛的人,都很难做到的。

2)这里面,几乎没有瑕疵,这个非常难得!因为说得越多,名词越多,越容易有纰漏;但这个几乎没有。

3)特别是最后一段,说得非常好。“哲学内核:不二是存在的本然状态,是认知的最高境界,是超越概念思维的直接体验,是主客不分、能所双泯的圆融无碍,是回归万物一体根源的智慧觉醒。”

4)我本身是baseline比较高的人,但这个解读,我能打到95甚至98分!

5)看到我以上几点评价,继刚也是感慨,“claude太强了”……后来他用deepseek试了下,不如这个好。

3、通过这个例子,给我什么感触呢?在智能的“深度”上,我们常规“以为”,AI只有7、80分位,但其实已经能到95分位了——只不过,绝大部分人,用(Prompt)不出AI的这个“潜能”

注:这里说的“深度”,跟“AI提炼或总结”(能力),还是有些区别,不完全是一个指向。and 也没否认,大模型的稳定性或幻觉问题。

4、这个认知,可能是99%的人,之前都没意识到的。

一旦意识到,可能对很多核心问题的判断,以及产品思路,会有根本性的变化比如,在不同阶段,是优化模型,还是优化Promp?是技术主导,还是产品或评测驱动?

而且,基于这个点,还能再深挖——

5、在7月2号AI日报(https://t.zsxq.com/KF6Df )第一篇文章里,有这么一段话,引起了我的注意——

但我(Alexandr Wang)确实觉得,整个AI行业,依然缺乏那种真正困难的评测和测试,能清晰展现出模型能力边界的那种。这类评测一旦在行业里被广泛采用,就会起到一个更深层的作用。它会变成了大家看齐的方向,成了研究者努力优化的目标标准。”

我突然联想到,目前业内的评测,都是那种特别难的逻辑题;但其实,李继刚从Prompt的角度,完全有机会弄出一个“通过Prompt来评测大模型边界”的事情(例如前面让Claude解释“无二”的case),而这个的价值会很大

6、即,常规AI评测方法(集)里的逻辑题,总会面临“被刷完”的困境,然后大家又得去设计所谓“更难”的题——根本上,这是因为那些题,都有标准答案(某个极值)。

但对于“无二”这种特定领域、最深入的概念的认知,几乎是可以被无限提高的,因为极值是“道”(宇宙法则)——大模型的回应,只会不断趋近于“道”。

也就是说,现象上,会有大模型A的回应,不断超越之前大模型B的回应,但这个评测题本身,反而不会“过时”

7、当我把以上内容发给继刚时,他的反应是“有道理,就是要折腾一下了”……

我的意思是,“嗯,可以慢慢酝酿着”……

注:本文2025年3月13日,首发于星球「」。

引申阅读:

1)继刚解释“无二”概念的具体Prompt,在3月13号的星球推送里(https://t.zsxq.com/uRK3u )

2)我在星球里,还发过2篇相关重要文章

  • 李继刚的价值被“严重低估”了_20250114》(https://t.zsxq.com/t3zma )

  • 2.0版的“李继刚的价值被低估了”认知_20250507》(https://t.zsxq.com/b31Qq )

One More Thing】

「黄钊的AI日报·第八季」早鸟票,将于本周四(31号)20点正式开启,抢跑群”现已开始招募~

感兴趣的同学,可以加助理乐乐微信,发送“抢跑”二字。

1、持续90天、每天5条AI内容点:不是常见的新闻汇总,而是站在12年AI产品经理视角,提炼干货认知、展示“what I see”。

2、在我们社群“AI产品经理大本营”内,AI日报已运营了26个月,很多同学把其当成自己的“第一AI信息源”,真的可以节省很多时间。只要连续看2、3个月,会明显比身边朋友同事,有更多认知差信息差

3、用户好评如潮,。

适合人群:对AI感兴趣的CEO/CXO/VP产品总监/产品经理技术大牛/投资人/AI媒体朋友、AI/互联网同行、高校老师/大学生。

ps,如果你对hanniman还不太了解,欢迎先查看:(AI产品分析、AI产品经理、AI技术、AI行业及个人成长,每个分类各10篇~)

黄钊hanniman,前腾讯PM,前图灵机器人-人才战略官/AI产品经理,12年AI、15年互联网经验;社群“”(7年)和自媒体“hanniman”(10年);作品有《》、「黄钊的AI日报」。