打开网易新闻 查看精彩图片

生成式AI世界的变化速度令人眩目,即使是全职从业者也很难跟上所有动向。读者告诉我,他们发现特别困惑的一个领域是各种命名混乱的AI模型。GPT-5.2、Opus 4.5、Gemini 3等等之间到底有什么区别?为什么要选择一个而不是另一个?

说实话,试图完全理解每个AI模型之间的详细差异会让几乎任何人都抓狂。但通过实例来理解为不同任务选择哪些模型是相当容易的。这就是本文要做的事情。

请记住,应用程序和AI模型是不同的概念。模型是进行智能处理的底层AI引擎。应用程序是你使用的工具。就像不同的车辆使用不同类型和品牌的发动机一样,不同的应用程序使用不同的模型。

例如,我给ChatGPT的图像生成器和Midjourney的图像生成器提供了完全相同的提示词,得到了不同的结果。ChatGPT的结果简单且相当清晰,而Midjourney既过度复杂又没有真正遵循提示。Midjourney在概念性图像方面很棒,但在图表方面表现糟糕。

大多数AI公司既将其模型作为API销售(程序员可以将其集成到应用程序中),也作为聊天机器人应用程序销售。请记住,AI聊天机器人本身并不是AI。像ChatGPT这样的AI聊天机器人实际上是一个聊天应用程序,它调用AI模型进行智能工作。

虽然有一些非常好的免费AI聊天机器人,但一旦你开始大量使用它们,你可能会购买一个或多个大约每月20美元的付费计划。

深度研究任务

对于特别密集的文档、新闻稿或技术论文,我会将其输入NotebookLM。大约15分钟后,该应用会生成一个讨论,探索我输入内容的关键点和主要问题。NotebookLM基于Gemini 3模型。

我使用一个名为Karakeep的自托管网络存档应用程序。Karakeep使用OpenAI的API创建优秀的自动关键词。我在Karakeep中索引了24,594个项目,从Pocket迁移到Karakeep的过程花费了我大约40美元,此后每几个月被收费5美元。

编程代码分析

对于将代码块放入聊天机器人并询问它的作用、问题或错误信息的项目,我发现使用GPT-5.2的ChatGPT Plus是最好的选择。

然而,当我进行智能体编程时,我发现使用GPT-5.2-Codex的OpenAI Codex和使用Opus 4.5的Claude Code表现惊人。智能体AI编程是指我将AI连接到我的开发环境,让AI读取我的整个代码库,然后执行大量的多步骤任务。例如,我用Codex在四天内为我编写了四个WordPress插件产品。

笔记管理和数据分析

尽管对Notion优先考虑AI升级销售而非基本产品功能感到恼火,我最终还是支付了Notion的年度AI费用。我使用Notion AI做两件事:搜索和总结我的文章草稿,以及将巨大的列表转换为分类数据库。

Notion不仅使用一个模型,它倾向于在Claude、ChatGPT和Gemini之间跳转,这取决于它认为哪个能以最低成本最好地完成工作。

语音识别

我经常使用Mac的听写功能。最近,我开始探索提供更高级语音识别和分析功能的听写程序。一个这样的工具是Paraspeech。它提供两个我觉得很有吸引力的功能:你只需支付一次费用,没有订阅费;AI在你自己的机器上运行。

通用业务支持

我用于一般业务支持AI操作的首选工具是ChatGPT的Plus版本。虽然它偶尔会极其不合作,但大多数时候都很有用。我通常将模型设置为自动模式,让AI为每个提示选择处理级别。我发现Plus版本在数据分析方面特别有用,我会给它提供各种数据的大型电子表格,让它处理、消化、找出关键问题并给我返回结果。

不推荐的模型

在知名产品中,我不使用Perplexity、Copilot或Grok。Perplexity从未引起我的共鸣,它以搜索闻名,但我尝试的几次搜索结果都很一般。Copilot非常以微软为中心,但我现在几乎不使用微软产品。至于Grok,尽管它在我的编程测试中表现出色,但它在智能体功能方面无法与OpenAI的Codex或Claude Code相提并论。

值得注意的是,苹果在AI方面几乎没有出现在我的雷达上。我尝试了Xcode中的编程智能功能,但它总是崩溃。苹果在AI代表性方面的完全缺席对该公司来说是个坏消息,库比蒂诺巨头真的需要快速提升其AI能力。

Q&A

Q1:NotebookLM是什么?它有什么特殊功能?

A:NotebookLM是Google开发的笔记本工具,集成了语言模型,基于Gemini 3。它的超级能力是根据提供的源材料创建音频解释器。你可以选择纯音频或带幻灯片的音频。当你输入密集文档、新闻稿或技术论文时,大约15分钟后,应用会生成一个讨论,探索关键点和主要问题。

Q2:智能体编程和普通AI编程有什么区别?

A:智能体AI编程是指将AI连接到开发环境,让AI读取整个代码库,然后执行大量的多步骤任务。与普通的将代码块放入聊天机器人询问问题不同,智能体编程可以让AI独立完成复杂的开发任务。例如,作者用Codex在四天内编写了四个WordPress插件产品,用Claude Code构建了复杂的iPhone应用。

Q3:为什么不同AI模型在不同应用中表现差异很大?

A:这是因为AI供应商仍在解决这项新兴技术的问题,不同模型针对不同任务进行了优化。例如,Opus 4.5在聊天机器人体验中表现不佳,但在智能体编程体验中表现出色。ChatGPT在图表生成方面简单清晰,而Midjourney在概念性图像方面很棒但图表表现糟糕。选择模型时应该基于具体任务需求而非模型声誉。