智谱AI CEO张鹏
大模型“独角兽”智谱AI公布最新的 AI 应用进展。
钛媒体App 11月29日消息,在上午北京智谱GLM OpenDay上,智谱AI发布AutoGLM 及 GLM-PC两款AI智能体产品。
其中,AutoGLM,基于智谱自研的“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”,是智谱第一个产品化的智能体 Agent,通过文字/语音指令模拟人类操作手机,实现大模型从“言”到“行”的范式转变,目前已经“百万内测”开放申请;GLM-PC则是基于CogAgent模型的视觉理解和任务规划能力,操作计算机的桌面应用,用户通过简单的一句话即可实现复杂任务的快速执行,同时具有任务规划、屏幕界面信息理解的能力,能够根据页面信息进行计划更改和自我纠错,根据用户的指令完成任务。
智谱 AI CEO张鹏表示,Al Agent今天非常火,从苹果的 Apple Intelligence、谷歌的 Jarvis,到 OpenAI 即将发布的 Operator,全球科技巨头纷纷布局。而国内智谱率先开放AutoGLM内测,已受到很多关注,过去一个月申请页面已经有超过100万的用户访问。
会后,张鹏对钛媒体App等透露,大家对于大模型的期待值过高,当然这毕竟是一个高投入的事情。信息的理解在于底层的技术,但底层技术并不是一个简单的单项能力,如果想让它做生产力工具,面对的是全面性的需求,可能会存在特别明显短板,所以智谱不止是技术上的布局,还需要产业生态的布局。智谱主要定位是“开放平台”,助力大家去做原有产品的改造,有能力的探索。
“确实,因为数据和训练规模原因,Scaling Law可能不像我们之前预测的一样,还是会指数级往上涨。但是你放更宽的范围来看这件事,我们不只单独去看,所以我们不止要看现象,而是要看这个现象的本质,我们都在寻找。相对来说,我们依然还是比较乐观,我觉得Scaling Law还是有很大的空间,延续我们带来的技术增长。”张鹏称,相对于语音,视觉Scaling Law还是在涨的,因此他认为,计算量可能是Scaling Law发展趋势的最佳解释。
针对于发展端侧Agent之后,智谱是否还做预训练基座大模型,张鹏没有进行回应。
据悉,成立于2019年的智谱 AI,由清华大学计算机系的技术成果转化而来,源自清华大学知识工程(KEG)实验室,是国内最早入局大模型赛道的公司之一,也是目前国内“大模型六小虎”(智谱、百川、月之暗面、零一万物、MiniMax、阶跃星辰)之一。
自2023年3月智谱 AI 推出千亿开源基座对话模型ChatGLM系列以来,GLM大模型经历四个大版本迭代,共发布了超过20款 AI 模型技术和产品。
智谱AI聚焦于基座模型的研发投入,落地方向以TO B赛道为主,以TO C赛道为辅。谈及国内的大模型赛道,张鹏曾表示,国内大模型赛道过于拥挤以至内耗,更符合商业规律的模式应走向分层——先基座大模型,再行业侧模型,再面向更加细分场景的推理模型。国内创业生态在分层方面较美国略慢,而美国在多样性方面选项会更多。
To B端层面,截至2023年底,智谱 AI 已拥有超2000家生态合作伙伴、超1000个大模型规模化应用,覆盖传媒、咨询、消费、金融、新能源、互联网、智能办公等多个细分场景。
融资方面,智谱AI已完成九轮融资,总额接近60亿元人民币。
其中,2023年智谱 AI 累计融资额超过25亿元人民币,投资方包括君联资本、启明创投、中科创星、美团、蚂蚁、阿里、腾讯、小米、金山、顺为、Boss直聘、好未来、红杉、高瓴等多家机构;2024年3月,北京市人工智能产业投资基金参与投资智谱华章;今年6月,沙特阿美(Aramco)旗下风险投资部门管理的基金Prosperity7投资智谱 AI,本轮总融资额达到4亿美元(约合人民币28.94亿元);今年9月,北京海淀设立的市场化投资平台中关村科学城公司宣布,以投前200亿元估值领投智谱华章(智谱 AI)新一轮融资,金额达数十亿元。
如今,智谱全面发力 AI 智能体应用。
事实上,智谱已在芯片、应用app、操作系统OS 和模型侧进行了长时间、全链路布局。
2023年4月,AgentBench项目启动;今年1月,智谱All Tools 能力率先发布,它能自动调用代码解释器、web 浏览器和文生图模型等;今年4月,AutoWebGLM公布,成为首个全面超越GPT-4,网页浏览能力的模型。此外,智谱与高通、三星、英特尔、荣耀、华硕等端侧芯片、手机、电脑厂商合作,联合发力大模型应用,在 AIPC、智能助手等领域落地。
张鹏认为,通过端侧芯片性能优化和端云一体架构;Agent 不仅在操作系统 OS 和应用App上实现用户体验变革,还能将其推广到各类智能设备上,实现基于大模型的互联互通。
如今,今天的Agent可以做到像人一样,理解界面、规划任务、使用工具、完成任务,从而更聪明地代替人类行动。
他分析称,大模型发展至今开始逐步具有上述人类与现实物理世界互动的能力:L1语言能力进程 80%、L2逻辑能力(多模态能力)60%、L3使用工具的能力进程 30%,甚至L4自我学习的能力也正在逐渐出现。
“大家都知道,大模型不只是Chatbot,它的价值远超于Chatbot。其本质在于对世界的“理解”能力以及序列输出能力。过去两年,智谱致力于将这种“理解”能力融入各行各业及各种场景,与在场众多客户和伙伴进行了大量实践。在探索的过程中,我们也不断思考大模型的“序列输出”意味着什么,以及应以何种形式呈现。我们认识到,输出形式不仅限于语言文本,更可以扩展至图像视频,甚至是操作/Action。我们的阶段性成果就是大家今天看到的Agent应用。”张鹏称。
“当然,虽然展现出比较大的进步,但与人类的表现相比Agent仍有较大差距。目前我们人类毫不费力完成的一些操作 (滚动、拖动、缩放),对Agent来说也是极具挑战的。因此在L3阶段,智谱今天的理解是才走到30%。”张鹏称,尽管目前技术还比较初期,但 Agent的未来应用已经展现出了强大的前景。目前的Agent能力更像是在用户和应用之间,增加一个智能的调度层,链接所有应用甚至是所有设备。这可以看做是大模型通用操作系统LM-OS的一种雏形。
会后交流时,张鹏表示,“所以很多时候我们看待问题,它更多的是一个技术导向,二个是最终的目标导向,而不是仅仅局限于单项技术的快速变现。我们还是最终的目标还是面向的是说,最终要帮助大家切切实实的去解决生产力的问题,而非简单盈利。所以,我们需要更中长远去做这个事情,从生态建设上也是一样,就像今天我们可以看到,很多伙伴、很多客户其实是在我们开放的技术体系之上构建发展自己的应用和商业价值。”
“为用户创造价值,这个是最重要的。我们无意跟这些(厂商)强,而是我们再找其他新的方式,让用户得到最真实的价值,让他们自己去投票。操作系统在合作,尝试把我们的 AI 能力去合作进去。”张鹏称。
谈到 AI 智能体和搜索关系,张鹏提到,在办公应用场景中,AI Agent助手可以帮你解决一些问题,提升工作效率,所以智谱希望推动AI Agent技术本身的应用产生价值。而搜索是一个重要场景。
张鹏强调,AI Agent已经对人机交互形式产生极大的影响。未来,基于大模型智能能力(从L1 到L4乃至更高),有机会实现原生的人与机器交互的方式LM-OS,这将从根本上改变人与机器交互的方式。
“人的需求往懒惰方向走,但技术永远是在帮助大家解决问题。”张鹏称,
(本文首发于钛媒体App,作者|林志佳,编辑|胡润峰)
热门跟贴