智东西
作者 徐豫
编辑 云鹏
智东西12月3日消息,当前AI行业快速发展,竞争也越来越激烈,特别是各种高级推理模型之间的竞争。
过去一段时间,中国科技公司陆续发布了3款自研的AI模型,分别是DeepSeek(深度求索)的Deepseek R1、阿里巴巴的Marco-1以及香港中文大学与商汤科技的联合实验室MMLab的OpenMMLab混合模型。这些新AI模型在性能和可访问性上媲美OpenAI的预览版推理模型o1-preview,同时也反映了OpenAI等AI大模型巨头比预期更早受到开源创新的冲击。
今年9月中旬,OpenAI发布o1-preview的同时,还为AI模型执行复杂推理任务设立了新的基准。该公司预计最快于下周发布其o1系列模型的满血版,但现在看来,OpenAI自证o1系列模型仍遥遥领先的压力越来越大。目前,该公司的估值已高达1570亿美元,并放言要实现AGI(通用人工智能),这些都给其领导层带来了不小的压力。
AI模型性能乃至整个AI行业都处于高速创新的快车道上。去年,OpenAI GPT-4的首发比Anthropic Claude 2足足早了5个月。然而,今年o1-preview只比同行早发了两个半月,时间优势大幅收缩。
这一开源举措也印证了该领域的其他玩家,诸如开源实验室AI2的OLMo 2模型和开源模型服务公司Nous Research的Nous Forge模型,也能通过与OpenAI闭源不同的道路,来扩大先进AI技术的可访问性。
11月28日,围绕上述3款中国自研AI模型的开源水平、AI2的OLMo 2模型的特点和OpenAI未来几周内可能会采取的应对措施,美国知名科技媒体VentureBeat创始人兼CEO马特·马歇尔(Matt Marshall)对话谷歌机器学习开发专家萨姆·维特维奇(Sam Witteveen),俩人共同分享了他们的分析和判断。
以下是此次访谈部分内容的编译(为提高可读性,智东西在不违背原意的前提下进行了一定的增删修改):
一、快速发展的中国开源模型,对o1-preview构成挑战
Matt Marshall:中国开源模型的兴起正在挑战OpenAI o1-preview的地位,你怎么看?
Sam Witteveen:中国的DeepSeek(深度求索)公司基本上放弃了他们名为R1的AI模型。这是该公司尝试推出的一款AI推理模型。我试用过这款模型,给我留下了深刻的印象,它接近于OpenAI已经上线的o1-preview和o1-mini。o1的完整版模型还未发布。
从那时起,我们看到中国其他的AI模型开放商陆续推出了类似的模型。因此,我认为真正重要的不仅仅是这些模型本身,这些模型非常好,而真正有意思的一点是DeepSeek称他们会开源模型权重,或者公开发布模型权重。希望在接下来的一周到两周内,我们能够看到该模型权重,并开始上手使用它。
同时,我认为这其中还有另一个有意思的现象,那就是开源模型是如何追赶专有技术模型的。在我看来,这也是OpenAI在今年9月发布o1-preview的原因。目前只有o1-mini和o1-preview,我们都在等待o1模型的完整版。有消息说今年的感恩节(11月28号)后,OpenAI将发布满血版的o1模型。
那么,o1满血版是否会大幅推动OpenAI的发展,还是说现阶段部分中国科技公司已经复刻了这些专有技术公司实际使用的模型?我认为这是AI领域非常重要的一次进展,让我们拭目以待。
Matt Marshall:DeepSeek是一家来自中国的量化对冲基金公司,已经成立了有一段时间了,但由于该公司具有AI方面的专业知识,因此我认为DeepSeek是几家有1万个GPU并且能够完成这部分工作的公司之一。
不过,OpenAI一直在说他们已经领先了,其CEO萨姆·阿尔特曼(Sam Altman)11月27日才在播客中说将会在2025年实现AGI。他们用这种说辞吸引了不少人,
但在我看来,这种说法已经开始变得有点过时了。OpenAI过去曾拥有强大的领导力,但现在其领先优势已经不复存在了。换句话说,如果他们仍然明显领先,应该能够再次证明这一点。
二、基于思维链,推理模型能自查并纠正“strrawberry”
Matt Marshall:涉及到开发方面,你认为这些模型方面的变化对开发应用程序来说意味着什么?
我们讨论过AI模型已有太多的荣耀,上周还讨论过Agentic AI的发展透露出AI模型的价值越来越小。对于你那边的开发人员来说这又意味着什么?为什么你仍然对这些大模型感到兴奋?
Sam Witteveen:我觉得你说的完全正确。随着AI模型整体都越来越强大,你所需要一个AI模型去完成的事项或技能,现在几乎所有市面上的AI模型都可以做得到。
本周AI2推出的OLMo 2也是很有趣的一款AI模型,它实际上是一个完全开源的AI模型。那么,这其中有什么区别呢?一个完全开源的版本意味着他们不仅提供了模型权重,还同时提供了训练代码、数据集和所有他们采用的设置,有了这些,你就可以复制这一个AI模型。
你可以想象到很多组织会喜欢这种形式,因为他们可以查看数据集的内容,从而发现是否有任何受版权保护的材料,或者是否与他们公司的立场相冲突。
这款名为OLMo 2的AI模型采用了一种更恰到好处的开源方式。我们过往谈论的大部分开源的AI模型版本都属于开放模型权重的类型,就是虽然我们拿到了该AI模型,但并没有获得其训练数据、训练脚本等资料。
但是,这些来自中国的开源AI模型,大部分都获得了许可证。就像DeepSeek R1发布后,我们可以看到它的许可证是怎么样的,公司是否能够直接使用它,使用后是否能获得良好的结果,以及是否能够针对特定用例微调该模型?我们暂且还不清楚他们具体是如何训练的,如何进行所谓的测试时间计算。
这些模型与你之前谈到的GPT-4、GPT-3模型之间的区别在于,前者在实际进行推理时会花费更多的计算量,这是由于该模型一直在推理。过往的那些模型只有在训练时才会花费较多的计算量,一旦训练完成,他们将使用更少、更一致的计算量。
不同的是,这些推理模型会消耗更多的计算量,并且它们可以自我迭代。这也是人们将它们称之为推理模型的原因。它们会思考用户的需求,然后紧接着会不断回过头来重新思考并自行完善它们给出的答案,从而改善输出结果。从中可以看出,这些推理模型有很长的思考链路,我们现在把这个过程叫作“思维链”。
Matt Marshall:我看到了有部分开发人员测试了DeepSeek R1的“思维链”能力。例如,让它计算草莓(strawberry)英文单词中R字母的数量,你可以看到它的推理过程。一般来说,当你要计算该单词中R字母的数量时,但它可能会转变两三中答法,隐蔽性比较强。而DeepSeek的R1能做到,OpenAI的o1却做不到。
OpenAI说他们不想公布所有的思维链,这可能是出于竞争原因,但同时我认为他们不想透露有偏差的情况。如果将推理过程展示出来,你就可以看到模型具体哪个地方出错了,那么你也可以重新输入提示。而且开发人员和用户,也可以弄清楚问题并改进这一点。因此事实上,在集群规模较小的前提下,中国这方面确实做得更好。
不过,有一些人说你可以使用许多技巧,例如你所使用的tokens数量、计算量,会对推理效率产生较大影响。我之前和Cap Gemini的生成式AI执行副总裁史蒂夫·琼斯(Steve Jones)讨论过这件事情。他们与许多企业合作使用生成式AI。
琼斯说,他基本上都在使用ETIC框架,该框架将正确的Lang图与一些计划和执行框架混合在一起。根据他的经验,这样做将轻松击败o1-preview,以及上述任何一种模型。
Sam Witteveen:确实,当o1问世时,我做过一个“穷人版”o1测试。我自己创建了一些模型,其中包括一个Agentic版本和一个小模型版本。我训练或者微调它们,以便与o1对齐。我发现,Agentic版本更安全,这是由于你可以在里面设置检查、验证、制衡等环节。外加一个类似于R1这种模型,你就拥有了两全其美的方法。
在草莓英文单词R字母的计数实验中,我抛给R1的第一个测试是当我拼错了四个字母R时,R1怎么回答“数一数你知道的草莓英文单词中的R字母的数量(How many r’s in ‘strrawberry)”。当然,结果是它仍能够正确识别并回答出有4个R字母。
三、整合多家模型能力,用一个系统定制专业领域模型
Matt Marshall:总部位于美国旧金山的Fireworks AI于11月18日发布了一个专门从事复杂推理的复合AI模型,虽然它没有针对o1-preview进行基准测试,但它对标GPT-4o。另外,中国的阿里巴巴和
OpenMMLab同样发布了对标o1-preview的模型版本。这其中你认为有哪些值得关注的事情呢?
Sam Witteveen:还有一家位于美国旧金山的创企也在微调大模型等方面做了许多事情,并建立了良好的口碑。这家名为Nous Research的开源模型服务公司推出了一款模型Nous Forge。据我了解,他们的方法更适合做代理这种事情,例如你可以更换任何模型,这意味着他们的系统不一定是围绕某个单一的模型建立的,而是可以整合当时你需要的或者你发现的一个新模型。
在我看来,所有这些AI模型未来都将朝着类似的方向发展,即使我们还没有看到完整版的o1。如果o1最终呈现的效果比这些模型都要好,那将十分有趣。但与此同时,其可能需要花费更多时间来推理。因此,我认为他们不会局限于开发商用的标准模型,而是会面向科学发现、癌症治疗等领域开发更多的模型。
人们正在研究如何从OpenAI中至少实现其中一些想法。现在,也许我们还没有像OpenAI那样完整的秘密来源,也许他们还有更有趣的东西要来。你可以设想一下,未来我们不介意等待模型“思考”一周的时间,看看它是否会生成某种更加深入或创新的结果。现在关键在于o1到底能达到哪种程度。
来源:VentureBeat
热门跟贴