逐鹿AI大舞台,谁将脱颖而出,引领风骚
人工智能浪潮的掀起,世界正迎来一场前所未有的技术革命。
从20世纪50年代开始人工智能技术诞生至今,已经先后四次引起大规模的关注。而如今正处在第四次的大模型时代,前三次分别为专家系统时代、机器学习时代和深度学习时代。
后世之人如果要回顾这次的大模型时代,ChatGPT一定是一个绕不开的名字。2022年时,Open AI研发的ChatGPT-3.5横空出世,技惊四座,无论是写代码论文还是写诗作画,吹拉弹唱样样精通。
由于ChatGPT带起了一股技术热潮,全国各大科技公司开始纷纷投入资源和人力,开发自己的大模型产品,并在不同的场合进行展示和推广,百模大战也就此揭开帷幕,标志AI技术开始迈入新纪元。
时至今日,AI技术的迭代速度和应用广度均达到了前所未有的高度,每次技术的突破,都为人类的生活带来了翻天覆地的变化。如果回溯中国大模型的发展历程,记者认为起始点为2022年年底,彼时国内高校率先发布大模型产品,比如复旦MOSS、北大ChatExcel测试版、清华大学“chatglm-6B”大模型、上海交通大学研发的“兆言”大模型、东北大学的“TechGPT”……高校的涌入打响了这场百模大战的前奏。
各大高校打响第一枪后,一场关于AI的创业浪潮爆发。一时之间,优秀创业者和科技大厂共同涌入此赛道,百模大战正式打响。
最先的响应者包括百度的文心一言、360智能大模型1.0、智谱AI ChatGLM,后续跟进者包括商汤日日新、阿里巴巴通义千问、昆仑万维天工、讯飞星火认知、百川智能Baichuan-7B……根据彼时发布的算法备案,10亿级参数规模以上的大模型已发布79个,境内累计41款算法完成深度合成服务算法备案。
值得一提的是,在此期间一系列地方政策开始落地,比如《北京市促进通用人工智能创新发展的若干趋势》、《深圳市加快推动人工智能高质量发展高水平应用行动方案》等。一系列支持政策的落地也为这场百模大战再添一把烈火。
众所周知,竞争会推动高质量发展,在这场百模大战中,AI产品更新迭代涌入快车道。大厂在持续加码,像“月之暗面”这样的新玩家也在持续入局。
到今天,这场百模大战已经持续一年有余,激进期向稳定发展期转化,目前百模大战中通用大模型呈现寡头竞争格局。“四龙六虎”以及大厂加持下的大模型脱颖而出。
但是,这也意味着涌入决赛圈玩家们之间的厮杀会更加激烈。
目前,百模大战朝新方向转变,此前拼技术的玩家们必须直面落地商业化的难题。最近,AI圈就有传闻,由于融资降温,估值却又在不断推高的背景之下。大模型公司开始变得举步维艰,大模型六虎开始有人放弃大模型研发转向应用。浪漫的技术遇上现实的求生难题,而是事实上 ,根据数据,国内外都已经出现了不少宣布破产的AI企业。这其中也不乏有一些研发实力强劲的,但最终倒在了没有后续资金的困难上,毕竟大模型是个极度烧钱的赛道。
滚滚长江东逝水,浪花淘尽英雄。这条大模型赛道每天都有优秀的企业在萌芽,也每天都有企业在败退边缘求生。对于大模型企业来说,变,则生,不变,则死。
百模大战进入新局势,放眼如今的竞争者们,谁又将成为赢家,独领风骚呢?
百花齐放,百家争鸣
截至目前,国内至少已有200多家大模型厂商推出了各自的产品。
这其中包括有互联网大厂,如百度、阿里、腾讯、华为等;还有垂直于AI领域的老牌厂商,如以四小龙为代表的商汤科技、旷视科技、云从科技、依图科技等;还有一批有出色实力的新秀选手,比如六小虎智谱 AI、百川智能、月之暗面、零一万物、Minimax和阶跃星辰。
互联网大厂:
腾讯混元大模型是由腾讯公司研发的大语言模型,其智元体平台为腾讯元器。作为腾讯全链路自研的通用大语言模型,其参数规模超过万亿,目前提供hunyuan-pro:万亿参数版本、hunyuan-standard:千亿参数版本、hunyuan-lite:百亿参数版本等 3 个版本。
通义千问大模型是由阿里云自主研发的大语言模型,智元体平台包括阿里云、ModelScopeGPT、钉钉AI助理等。通义千问具备强大的语言理解、生成和推理能力,支持多语言对话和图片文本识别,广泛应用于智能搜索引擎、问答系统和智能对话系统等领域,参数规模从18亿到720亿不等。
字节跳动的云雀大模型是一款基于注意力机制的深度学习语言模型,适用于处理自然语言处理任务。具有良好的并行性和效率,能够在大规模数据集上进行训练。云雀大模型的参数规模为1300亿,是目前国内最大的中文预训练模型之一。云雀大模型的智能体平台包括Coze、豆包、飞书智能伙伴。
老牌厂商:
商汤科技:日日新SenseNova大模型是AI四小龙中的商汤科技所推出的大模型。该大模型体系以低成本、高效率打通了各类AI应用,提供包括:面向办公场景的商汤日日新·商量语言大模型-数据分析版本、面向医疗场景的日日新·商量语言大模型-医疗版本“大医”……商汤“日日新·商量大语言模型”已在金融、手机、医疗、汽车、地产、能源、传媒、工业制造等众多垂直行业,已与超过500家客户建立深度合作,加速行业企业的智能化转型。
旷视科技:“旷视太乙”是旷视科技推出的一款生成式人工智能大模型,具备深度学习和推理能力。该模型的应用场景包括城市治理、智慧物流、智慧金融等多个领域,能够提供高效、智能的解决方案,帮助企业和城市实现数字化转型和智能化升级。
云从科技:云从科技推出的从容大模型包含但不限于语言大模型、视觉大模型、语音大模型、代码生成大模型以及图像生成大模型等,它通过实时学习并同步反馈结果,可以解决诸多AI应用的痛点,从而有利于快速普及个性化应用。同时,其具备上下文学习能力,能够以更好的交互性能,应用于金融、安防、政务、交通、能源、教育、医疗、文娱等行业领域。
依图科技:“天问”大模型是上海依图网络科技有限公司在2023年底首发的一款多模态大模型,是视频监控领域内第一个商用发布的大模型产品,基于先进的Transformer架构,具有会思考、可对话、能进化的三大特点
实力新秀:
月之暗面:Kimi 是大模型初创企业月之暗面科推出的智能助手产品,在自然语言处理、长文本处理、多语言对话支持等方面占据优势。后续通过社交媒体平台,在用户争夺战中占据了先机。
百川智能:百小应是百川智能于 2024 年 5 月 22 日推出的首款 AI 助手,它基于百川智能最新发布的基座大模型 Baichuan 4,具备多轮搜索与定向搜索、文件阅读与资料整理、智能交互、多模态能力、语音交互、Web 端和移动端应用等能力。此外,百川智能以医疗AI为核心业务。近期发行的AI健康顾问证明公司正在围绕医疗应用场景发力,探索医疗增强大模型的用户价值和产业价值
智谱AI:被称为国内最有Open AI气质的大模型企业。智谱清言是北京智谱华章科技有限公司推出的一款生成式 AI 助手,基于智谱 AI 自主研发的中英双语对话模型 ChatGLM2,经过万亿字符的文本与代码预训练,并采用有监督微调技术。
Minimax:Minimax专注于图像识别和计算机视觉技术,旗下出品的海螺AI基于MiniMax自研的多模态大模型,融合了自然语言处理、知识图谱、语音识别等多种AI技术,赋予了海螺AI强大的语义理解和知识推理能力。此外,Minimax还有AI陪伴产品“星野”。
零一万物:科技圈大佬李开复博士创立的AI企业。旗下大模型产品包括Yi-34B、Yi-Lightning、Yi-Large等。应用场景包括但不限于智能问答、智能读文档、自动分析和理解文档内容、PPT自动化生复杂推理和预测。
阶跃星辰:此前的大模型格局是四龙五虎,近期开始变成四龙六虎。多出来的第六只老虎,是在今年6月,由前微软全球副总裁姜大昕创办的阶跃星辰。该企业是目前资本市场的新宠儿,以一轮估值20亿美元的融资跻身进AI独角兽的宝座,由此奠定他第六只小虎的地位。其推出的“Step系列”通用大模型,让业内人士眼前一亮,其Step-2万亿参数MoE语言大模型,更是国内首家发布。
国外AI主流玩家们
过去的两年里,国内外的AI大模型领域都迎来了迅猛的发展和创新。国内有百家争鸣,百花齐放的盛状;而美国也有如OpenAI、Anthropic、Meta、Google等企业纷纷推出了新一代的大模型产品。
OpenAI:由山姆·奥尔特曼等人创立,科技巨头微软作为最大投资者,Open AI也是目前全球范围内公认的最强AI企业。旗下产品包括GPT-3.5、GPT-4、GPT-4o等。其中GPT-4o作为 OpenAI最新产品也被业界称作Open AI有史以来最好的模型,支持跨文本、音频和视频进行实时推理——能听、能说、能看、零延时、可打断等功能
Anthropic:由OpenAI前研究副总裁达里奥·阿莫迪、大语言模型GPT-3论文的第一作者汤姆·布朗等人共同创立。前世界首富贝佐斯的亚马逊已对其投资40亿美元,并持有少数股权。旗下产品包括Claude 1、Claude 2 、Claude 3以及Claude 3.5 Sonnet。最新产品Claude 3.5 Sonne在2024年6月发布,该产品在基准测试中超越了GPT-4o,同时推出了Artifacts功能,增强了用户与模型的交互,使用户能够实时查看、编辑并基于Claude的创作进行构建。
Meta:美国知名互联网公司,创建者为扎克伯格,旗下AI产品为LLaMA系列,特别适用于学术研究和开发者社区。2024年7月发布的最新产品LLaMA 3.1是目前最大的开源模型之一,支持128K的上下文长度。LLaMA 3.1 在多模态处理、数学推理等方面表现出色,进一步巩固了其在开源社区中的领先地位。
Google:作为顶级科技公司的谷歌,早在2006就提出了构建人工智能专用基础设施的想法,并组建了Google X实验室人工智能开发团队。算是最早入局AI的企业,目前旗下产品为Gemini 系列。此外,Google还推出了专为设备端优化的Gemini Nano版本,能够在Android设备上高效运行,进一步拓展了模型的应用场景。2024年5月,Google在其开发者大会上展示了即将发布的Gemini 2系列。这一系列模型通过使用更强大的TPU v5p芯片进行训练,大幅提升了计算速度和能效比。Gemini 2不仅在多模态任务上表现出色,还进一步扩展了支持的语言和应用场景,预示着Google在大模型领域的持续发展。
在技术成熟度方面,美国AI人工智能的发展起步较早,技术积累深厚。以OpenAI的GPT系列模型为例,其在自然语言处理领域的突破,引领了全球AI技术的发展潮流。相比之下,国内虽然在大模型领域取得了显著进展,但与国际领先水平仍有一定差距。尤其是在大模型的训练、优化和应用方面,国内尚需进一步提升。而在应用落地方面,国外AI人工智能的应用范围广泛,涉及医疗、金融、教育、办公等多个领域。比如,美国开发的BloombergGPT大模型在金融领域得到深入应用,微软的Office 365 Copilot则开启了办公生产力革命。而在国内,AI人工智能的应用主要集中在互联网等少数领域,缺乏具有广泛影响力的商业化应用。
截至目前为止,中美都孕育了众多表现出色的大模型独角兽。这些企业都在本土市场展现出了强大的创新能力和市场活力,成为全球AI技术发展的领头羊。而跳出中美,尽管独角兽的出现并不频繁,但它们依然如一颗颗闪耀的珍珠,在各自地区发光发亮。
Mistral AI于2023年4月在发过巴黎成立,由前DeepMind和Meta的科学家共同组建,主要聚焦开源模型及企业级服务。Mistral AI开源的Mistral系列大模型受到了业界的广泛赞誉。2024年4月,Mistral AI推出了全新专家混合(MoE)大模型Mixtral8x22B磁力链接。该模型在文本生成、问答理解等方面表现出色。Mixtral8x22B的具体特点包括对64K超长上下文的支持,多语言能力,尤其在法语、德语、西班牙语等语言上表现流畅,以及采用Apache2.0开源协议等。据悉,Mistral AI与微软也建立了长期合作伙伴关系,利用Azure AI的超级计算基础设施进行模型训练,共同为客户提供MIstral AI的模型服务,成为继OpenAI后第二家在微软Azure云平台上提供商业语言模型的公司。
欧洲大陆的另一个工业大国德国,同样也有自己的“Open AI”。成立于2019年的人工智能初创公司Aleph Alpha,将自身定位为欧洲本地AI技术的领导者。2023年,Aleph Alpha在资本市场上取得了显著成就,当年6月,Aleph Alpha获得1亿欧元A+轮融资,晋级德国AI独角兽。2023年底,Aleph Alpha宣布完成超5亿美元规模的B轮融资。该轮融资的投资方主要来自于德国本土,由创新园人工智能(Ipai)、博世风险投资(BoschVentures)和施瓦茨集团(SchwarzGroup)的公司领投。Aleph Alpha主打“数据主权”的概念,即存储在某个国家的数据受该国法律的约束,以确保数据的安全性。其生成式人工智能解决方案致力于为企业和政府提供突破性的人工智能技术。技术层面上,Aleph Alpha自研的Luminous系列大语言模型,与ChatGPT的功能类似,提供生成文本/代码、总结内容、翻译等服务。
除上述之外,估值50亿美元的加拿大多伦多企业Cohere、由印度知名企业家巴维什・阿加瓦尔创建的Krutrim、以色列AI大模型公司AI21 Labs……这些都是知名的AI独角兽企业。
闭源与开源之争
在目前千万计的大模型报道中,闭源与开源一次被广泛使用。而这二者究竟是什么?又究竟有何区别呢?
开源大模型和闭源大模型都作为大模型的两种主要技术形态,其各自拥有独特魅力和应用场景。
开源大模型是指由开源社区或组织开发、维护和共享的大型软件模型。其最大的特点在于开放性和可扩展性,即代码和模型结构公开可用,任何人都可以访问、修改和使用。
而闭源大模型与开源大模型相反,其代码和结构是私有的,仅由特定的组织或个人拥有并维护。这种模型通常用于保护知识产权、商业机密和竞争优势,因此其定制和修改的程度可能受到一定限制。
乍一看,似乎开源大模型的优势远远强于闭源大模型。但目前市场观点认为,在AI最难且最重要的商业化领域上,闭源大模型更有优势。
市场观点认为,闭源模型是商业化模型。开源模型效率不行,无法解决算力问题;开源模型成本反而更高;开源模型对技术要求更高……
开源模型因其并未开放训练源代码、预训练和精调数据等影响模型效果的关键信息,所以无法像开源软件一样,靠社区开发者一起参与来提升效果和性能,而基座模型的训练只能掌握在厂商自己手里。
百度的CEO李彦宏就是闭源大模型的资深支持者。今年七月的2024年人工智能大会期间,李彦宏发表“开源模型是智商税的言论。”他认为,在同样参数规模下,开源模型的能力不如闭源,“如果开源模型想要在能力上追平闭源模型,就需要更大的参数规模,这将导致更高的推理成本和更慢的反应速度。”
而这也并不是这位大佬第一次发出这样的声明。在此前,他就提出开源大模型会越来越落后的观点。而这在不久后就立刻遭到红衣教主,360CEO周鸿祎的强烈反对。
而事实上,大佬们对于开源还是闭源的争论还有很多案例,也有像王小川“开源和闭源并非像手机中IOS和安卓必须二选一情况”的中立观点。这些路线之争,背后往往是商业路线的分歧。
但就目前来讲,似乎闭源模型的产业化和商业化能力似乎更强。大模型与业务结合,需要产品、运营、测试工程师等多种角色共同参与,同时大模型的长期应用所需的算力、存储、网络等配套都要跟上,开源社区无法帮助用户“一站式”解决这些细节问题。
此外,闭源大模型的整体能力似乎强于开源。OpenAI的GPT-4、Anthropic的Claude-3、谷歌的Gemini Ultra都是闭源。
而回到国内百模大战中去看,大多数都是以开源和闭源双向发展的路径。比如百川智能、零一万物、阿里商汤、智谱……但也有像百度和月之暗面这样专攻闭源大模型的存在。
百度一直是主攻闭源大模型的选手,目前为止,虽然百度文心一言仍坚持闭源路线,但百度智能云部门在其平台上提供了大量性能很强的第三方开源大模型。百度通过闭源文心一言,也通过开源大模型使用的算力、工具和服务,来实现商业上的收益。
而与百度相反,阿里云则正在大力推广开源,一方面是为了加快市场份额的争夺;另一方面作为云计算企业,它可以在算力、工具和服务上获得收益。
华为云2023年在推出盘古大模型3.0时,就表态采用闭源路线。过去一年,它的重心是在各行业进行联创,落地大模型,并将技术回馈盘古,不断迭代,未参与业界开闭源讨论。华为云在上周也刚刚官宣盘古5.0多模态大模型,发布期间也未涉及开源问题。
实力新秀智谱,也是国内最早开源大模型的企业。由于旗下研究的GLM开源大模型而获得大量关注,也让这家2019年才成立的公司,在融资和商业化上受益颇多。因为智谱由清华技术成果转化而来,2022年,它就将开发的双语千亿模型GLM-130B开源,“当时全国懂大模型的研究员加起来也不过百来人”。智谱CEO张鹏称,开源让大家知道智谱在做什么,同时可以让更多人参与推动大模型。此后在2023年3月,智谱将GLM6b开源,该模型在Hugging Face上的下载量超过1600万。
另一位新秀月之暗面,则是闭源大模型的拥护者。掌门人杨植麟坚定表示将专注 ToC,并会以长文本输入为核心构建其底座大模型的差异化竞争力。他认为这是行业现在最需要解决的问题,也是通往下一步产品化路上的最大卡点。
而对于开源和闭源,杨植麟认为像 OpenAI 一样的闭源是通往Super APP(超级应用)的唯一通路,而开源只是 ToB 的获客手段。“凡要做 C 端超级 APP 的,都是闭源。”
从杨植麟的回答中,或许可以得出闭源与开源的选择或许是基于大模型企业顶下的商业路线是主To C还是Tp B。
百舸争流 奋楫者先
在数字化浪潮的推动下,百模大战堪称人工智能领域一场前所未有的盛事。这场赛事汇聚了全国顶尖的人工智能研发团队,他们携带着各自精心打造的模型,准备在这场科技盛宴中一展身手。这些模型,如百余艘船只,在算法的海洋上展开激烈的角逐,展示它们在图像识别、自然语言处理、机器学习等众多领域的卓越能力。
大模型时代并不同于前三个时代,由于大模型通用性的特征,其发展十分有望实现商业闭环。也因此,在这个大模型时代,吸引了众多玩家涌入赛道竞争,形成百花齐开,百舸争流的现象。
另一方面,大模型的市场规模也在持续扩大,资本热度攀升。在2023年时,国内语言大模型的市场规模就突破了100亿元,并还在继续上升中。市场规模的扩大为这场激烈的百模大战再添一把火。
目前整个大模型赛道处于高拥挤的状态,而对于大模型来说至关重要的算力等其他资源却是有限的。随着市场竞争的日益激烈,算力等资源会呈现供需失衡的状态并出现资源配置倾斜。再加上算力成本的不断上涨,导致大模型玩家们必须积极竞争来构建优势,以此来获得资源的长期发展和支持。
这也是为什么业界有了“百模大战,必有一战”的说法。
如今,这场百模大战已持续一年有余,战事正逐渐往新的阶段升级。
有一个十分明显的预兆,大模型融资已经在开始慢慢降温了。
今年伊始,Open AI推出Sora掀起国内外视频大模型的鏖战。在那段时间,几乎没多久就会有大模型企业融资的消息传出。而到了6月,似乎一切都改变了。资本的眼球被具身智能等赛道吸引,大模型的融资数量较去年略有下降,开始有降温迹象的出现。
大模型的发展需要大量资源和算力的消耗,在这种逻辑下,金钱就成了唯一入场券。可是现在大模型技术的进展却与预期差距很大。投资人投入入巨额资金后,何时见效尚未可知,这也引起大多数投资人的焦虑心理。种种之下,如今的降温现象似乎顺理成章。
这样的境地也迫使大模型人士开始继续思考未来的商业化问题,浪漫的技术研发逐渐向艰苦的落地求生转化。由此,引发了一系列新的竞争。
首当其冲的,就是大模型之间的价格战。
据融中财经记者不完全梳理,目前为止已有超过7家大模型企业参战。包括字节跳动、阿里云、百度、腾讯、智谱AI、科大讯飞等。
根据记者梳理,今年5月11日,大模型独角兽智谱AI宣布其入门级模型GLM-3 Turbo的API降价为1元/百万tokens。5月15日,字节宣布旗下通用模型豆包pro-128k版模型推理输入价格降至比行业价格低95.8%,豆包pro-32k模型推理输入降至比行业价格低99.3%。5月21日,阿里云宣布旗下9款大模型全面降价,降幅最高达到97%,两款开源模型更是开启七天限免。几个小时后,百度直接宣布两款轻量级模型ERNIE Speed、ERNIE Lite免费开放。随后,又有两位玩家入局。先是科大讯飞宣布轻量级模型API永久免费开放。后又有腾讯云宣布混元-lite即日起免费,其他模型降幅最高达到87.5%。
一大基本现实是:当前,国内并没有出现真正的杀手级大模型应用。国内头部大模型玩家们在整体能力差异上,可能并不存在绝对领先的情况,大家都是处于趋同的存在,有的只是在能力上的各有特点与侧重。
这样的现实之下,如果其他大模型厂商们不跟进阿里、百度、字节、腾讯的这一波价格战,最终的结局就可能是被市场淘汰。毕竟在当前现实下,想要维持原本价格本已是一件难事儿,更何况当前这几大大模型厂商已经开始让用户尝到了更便宜乃至免费的滋味了。当你走进这欢乐场,悲伤所有的梦与想,各色的脸上各色的妆,没人记得你的摸样。
另外,在新时代下,大模型正在从拼参数到卷应用上。
百度的“文心一言”专注于内容创作和教育服务,为媒体和广告行业提供高效的文案支持,并在教育领域成为学生的智能学习伙伴。科大讯飞的“星火”大模型在教育和医疗领域展现出其独特的价值,为学生提供定制化的学习方案,并辅助医生进行精确的医疗决策。昆仑万维的“天工”大模型则专注于游戏产业,能够自动生成游戏内容并进行智能运营。智谱AI在构建与Open AI相匹敌的模型产品的同时,通过提供API和云服务私有化部署等方案,在科研领域为研究人员提供文献检索和分析服务;并与金融机构合作,进行风险评估和投资决策分析。此外,智谱AI还与国际科研机构和企业共同探索大模型的应用。MiniMax通过面向消费者和企业两端的策略,推出了多种类型的应用。在消费者端,推出了智能聊天助手;在企业端,与企业合作开发智能客服系统和办公自动化软件。
随着大模型技术的日益成熟,其在实际应用中的落地成为了衡量技术价值的关键,也是技术商业化的重要途径。目前,大模型行业的关注点已经从模型的开发转向了应用的实际落地。无论是拥有强大背景的大模型公司,还是新兴的初创企业,都在努力推动应用的发展,目标是打造具有广泛影响力的应用。
不同的厂商采取了不同的策略。一些厂商通过大量的广告宣传来吸引用户,利用流量优势;一些则不断进行产品迭代和优化,以提升产品性能和用户体验;还有一些采取了面向消费者和企业两端的策略,以扩大市场份额。
落地,是任何技术商业化的必要途径,因为它能够给企业带来直接的经济回报。这也是为什么现在的百模大战从曾经的拼参数逐渐转向到卷应用上去。
说到底,如今的百模大战不论是打价格战还是卷到应用层,这些都是企业们追求盈利的手段。任何浪漫的技术,都需要先活下来,吃饱饭再去追求理想中的乌托邦。
而在这样的路径上,大模型企业怎么才能够闯出成功之路?唯有努力前进,探索更多大模型落地的可能性。正所谓,百舸争流,奋楫者先。
热门跟贴