声明:本文内容均引用权威资料结合个人观点进行撰写,文末已标注文献来源及截图,请知悉。
不知道美国的各个AI产品,有没有告诉技术人员,中国的AI大模型已经对美国的产品,构成了碾压态势。
从去年底到现在,国内的多家AI公司都在发布新的产品,大模型迭代的速度很快,而且指向也很明确,主要的目标就是 Open AI。确切一点说,是对标美国人的 o1模型。
去年底,美国的一些AI研究人员面对媒体的采访也坦言,他们对中国同行的赶超印象深刻,更多从事这一领域的研究人员是感到惊讶。
两个月推出两个版本
2024年11月,国内的AI公司深度求索发布了R1预览版,该公司的说法也很明确,对标的就是 Open AI的 o1 预览版。
根据该公司此前的说法,他们推出的预览版,接近并超越了Open AI在9月份发布的版本。需要指出的是,Open. AI在去年9月发布的也是预览版。
仅仅过去两个月,在本月20号,深度求索公司又推出了新的版本,新发布的R1版本应该是正式版。而且公司在第一时间声称,新的模型整体性能对标 OpenAI的模型。
就在深度求索公司发布新版本两个小时后,国内另一家AI公司月之暗面,也发布了自己的最新模型。
无论从哪个角度看,国内的AI公司新模型的迭代速度相当快。就连美国的媒体在去年12月底也发布文章称,中国的AI公司虽然处在初创阶段,但是已经表现出了赶超美国AI模型的迹象。
针锋相对的技术和赶超
一年前,大多数人还不知道深度求索这家公司是何方神圣,但是从去年底开始,随着他们新模型的推出,公司在国内外也迅速走红。
在AI领域,国内的这些公司大多数都是近一两年来迅速起步的,虽然是新手,但是背后的竞争格局却一点也不弱。
比如另一家公司月之暗面,背后的金主大佬就是阿里巴巴和腾讯,他们在去年底研发出了一种专门用于数学的模型,相关的功能接近甚至超过了美国公司的模型。
美国的业内人士对中国初创公司的表现印象深刻,很多研究人员坦言,中国迎头赶上的速度相当快。
深度求索公司的研究员,仅仅用了几个月的时间,就搞清楚了 Open AI推理模型的办法。美国的一些研究员一度认为这不可能。但随着中国AI公司不断推出新版本,事实胜于雄辩的背后,美国人对此大多都是惊讶无比。
所以说,我们在AI领域虽然是后来者,但目前和美国的差距已经不复存在,国内多个初创公司都以针锋相对的态度,和美国的AI产品展开了激烈的竞争。
深度求索公司发布的R1版本,其中使用了大量的强化学习技术,模型的推理能力极大提升,不管是数学还是代码以及自然语言的推理,整体的性能都可以和 Open AI的 o1 版本一决高下。
国内的版本以及美国的版本,都在数学竞赛以及全球顶级的编程竞赛中,进行过权威测评,结果显示,我们的版本和美国的版本整体成绩不相上下。甚至在一些个别的指标上,深度求索公式的模型还超过了Open AI 的模型。
月之暗面公司推出的新版本具备多模态思考能力,从代码到数学,从视觉多模态再到通用能力,这一模型都超过了目前世界范围内的其他模型水平,领先程度达到了550%。
在一些特定运算和相关测试领域,中国AI公司推出的模型,其程度远高于其他同行的模型。甚至美国的一些初创公司,他们的技术开发和构建都建立在我国的技术之上。
美国大学抄袭中国产品?
中国的AI之所以能够迎头赶上,在美国人看来,是因为中国拥有开源技术优势,美国的AI公司大多都不愿意和同行共享底层代码。
但是在中国,无论是新创立的企业还是软件开发商,相关的底层代码都是可以共享的。这种开源方式在AI领域是发展的基础。
因为底层代码可以得到任何人的免费检查、使用和改进,在这个过程中,技术就能不断得到检验和革新。
美国媒体坦言,中国人采取的开源策略,在 AI领域成为了战略优势。值得一提的是,2023年底,国内一家AI公司创建了开源模型。等到推出新一代的版本后,斯坦福大学的一个研究团队也推出了一款模型。
但外界将两款模型对比后很快就发现,斯坦福大学的模型,几乎和中国推出的模型版本在架构与代码上完全相同。此事在业内也引发了抄袭的质疑。
这件事让美国人看到,中国的AI研究人员,已经不再依靠美国的技术来进行研究和构建,反倒是美国的研究人员,开始利用中国的技术构建。
一家位于纽约的AI公司之前曾表示,如果美国政府继续限制国内的开源项目,而中国的AI公司一直持开源态度,未来在AI的研究上,中国的开源模型就将成为整个行业的黄金标准。
换句话说,美国的AI构建,因为不开源而正在走向封闭。如果这种趋势继续下去,美国自身在AI领域面临的挑战将越来越大。
除此之外,AI人才领域表现出来的优势更让外界侧目。
雷军都来挖1%的天才
深度求索公司一位叫罗福莉的员工,之前被小米公司以千万年薪挖走。这件事的背后,更让人感到这家公司的神秘。
从之前公司发布的论文贡献者名单来看,全都是以年轻人为主,大学就读于清华、北大、北邮行等学校的计算机专业。
深度求索公司的主导者梁文锋,在这支队伍里反倒是少有的80后,研发产品他亲自带队,多数时候亲自写代码,很多技术上的难题都是大家一起攻关完成的。
某种意义上来说,这就是一帮年轻的具有天才思辨能力的人。像罗福莉的研究论文,之前在谷歌学术上被引用的次数超过了2000次。
要知道梁文锋带领的这家初创公司成立一年后,只用了两个月就训练出了开源大模型,其水平直接赶超 Open AI投入超百倍的顶级模型GPT-4o。
年轻人有活力,行动力和执行力更强。在美国人眼里,中国AI公司的战斗力已经碾压一直在休息的美国科研人员了。
不过,大多数时候,深度求索公司都愿意把自己藏起来。几天前,有一家国内的媒体试图采访该公司的高管,但一直没有得到回复。
知情人说,梁文锋这么做是想把主要精力都放入到产品的迭代中。除此之外,他还想保护好本公司年轻的技术人员。
如果说这些技术人员是天才,那么在大模型训练的细节层面,他们做的很多事情都让美国的同行刮目相看。
模型的训练只花费了557.6万美元,这一成本是全球知名大模型的1/20,甚至1/100。最关键的是,深度求索公司在训练模型使用的硬件设备,完全是低配版的。
公司使用的芯片是英伟达的H800,这是专门针对中国市场的低配版CPU,性能受限,但是深度求索公司仍然使用这样的硬件设备,完成了超大规模参数的模型训练。
Open AI其中的一位创始成员表示,深度求索公司让未来的模型训练变得更容易,哪怕使用有限的预算,甚至使用性能不怎么优越的芯片,同样可以完成模型训练。
可以这么说,国内AI公司的创举,有点像当年的先辈们使用算盘算出原子弹的参数。美国人恐怕又要头疼了,毕竟他们一直想不明白,中国人总是能在艰苦的环境下创造出奇迹。
除此之外,深度求索公司的员工规模也很少,公司的一些研究人员只有70人左右。
试问,在同样的投入下,同样的硬件设施以及相同数量的研究人员,美国的一些初创AI公司能够在模型训练上达到同等的高度吗?
对于这个问题,美国人显然已经知道了答案,所以针对我国,他们才在硬件设备上采取了限制措施。
AI芯片禁令
AI训练的本质,或者说其训练的平台要建立在硬件设备上,硬件设备的本质又是芯片。还在2022年,为了遏制中国获得最先进的AI芯片,美国政府就已经推出了相关禁令。
拜登更是在卸任前进一步推出了限制芯片出口中国的措施。虽然美国全方位针对我国围堵,但他们不得不承认,中国在AI领域的开发上已经找到了解决方法。
目前,国内的一些AI公司已经在尝试训练模型的试错能力,让AI模仿人类的试错,这样可以减少算力的使用强度。
此外,国内的技术人员已经在使用一种混合专家模型的技术,这种技术在训练的过程中可以减轻对芯片的过度要求。
结语
所以说到底,不光中国人,就连美国人也都不相信,他们的限制措施能阻挡中国在AI领域的突破发展。
何况,眼下中国的AI公司成功完成了突围,未来的发展建立在自己的模型训练上,中国正在成为超越西方的主要竞争对手。
热门跟贴