打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

作者|参商 玄玄子

编辑|星奈

媒体|AI大模型工场

打开网易新闻 查看精彩图片

国内大模型发展趋势|10月份解读

多家自主智能体产品上线,AI Agent潜力初显

从去年就爆火的AI Agent概念,在今年年底多家厂商终于推出了相关的产品,AI Agent技术从理论走向了实际应用。

10月25日,智谱推出自主智能体AutoGLM,简单来说是一款可以实现帮你进行手机操作的AI助手。用户可以一句话让AI自动完成发微信、给朋友圈点赞评论、点外卖、订酒店等。

同时,智谱AI还推出了端到端情感语音模型GLM-4-Voice 。据了解,这款情感语音模型不仅能够理解情感,有情绪表达、情感共鸣,可自助调节语速,还支持多语言和方言,并且延时更低、可随时打断。

尽管AutoGLM目前处于内测阶段,仍引起了市场不小的关注,AutoGLM出来之后,直接引爆二级市场智谱AI概念股。

与此同时,其他科技巨头也在这一领域有所布局。

在智谱推出AutoGLM的三天前,Anthropic上线 “computer use” 功能,Claude模型能够在无需人工干预的情况下完成计算机上的常规任务,包括浏览网页、文件管理和输入文字等,能够像人类一样操作电脑。

10月29日,微软开源 OmniParser,是一款解析和识别屏幕上可交互图标的 AI 工具,该工具并不需要依赖额外的上下文数据,可以理解更复杂的图形用户界面(GUI)。紧接着,谷歌也宣布即将推出一款能够接管计算机的人工智能,但具体细节尚未公布。

从这些厂商的动作中我们不难看出,未来AI能力不仅是在自然语言交互方面,更重要的是AI具备的智能化操作能力,而这不仅会带来新的人机交互方式的变革,更会深入地融入人民的日常生活和工作中。

然而,随着AI Agent变得更加复杂和强大,我们也必须考虑如何确保这些系统安全可靠地运行,以及如何解决隐私保护、伦理道德等一系列新挑战。

AI手机产品发布进入加速期

10月,AI手机圈各种大招密集轰炸。

10月10日,Vivo推出蓝心端侧大模型 3B,其AI能力已覆盖60多个国家和地区,服务超5亿手机用户,大模型token输出量超过3万亿

18日,荣耀同期发布了Magic OS 9.0 ,打造AI OS,并在30日发布了首款搭载AI Agent的荣耀Magic7,其上的YOYO智慧助手已经打通了多款APP,可以实现一句话充值、一句话点外卖等服务。

29日白天,苹果正式推送iOS18.1,引入AI功能,重点包括:AI写作、邮件优先推荐、智能回复邮件、总结消息摘要、通话录音和转录、照片和视频搜索、Siri增强等。

当天晚上,备受关注的小米15如期发布,卢伟冰口中的AI手机终于来了。小米15搭载澎湃OS 2,并升级“小爱”为“超级小爱”。

在手机市场增长疲软的现状下,AI的加入无疑给手机市场增注了一剂强心针。IDC最新预测估计,2024年生成式AI手机的出货量将同比增长364%,达到2.342亿部。到2028年,全球生成式AI智能手机的出货量将达到9.12亿部,2024-2028年的复合年增长率为78.4%。

初创公司卖身大厂,AI泡沫开始破灭

10月22日,媒体爆出AI初创企业波形智能将被OPPO收购。据了解,波形智能已于近期解散,包括CEO、CTO在内的多位团队核心成员已经集体入职OPPO。

在今年年初波形智能完成千万元级Pre-A轮融资,7月底,还发布了新一代多模态无限式长内容生成的个性化自适应私人语言模型Weaver 2.0。

然而,这一系列动作之后不久便传来了解散的消息,不免引起市场上对AI泡沫化的讨论。

实际上,今年以来,国内外已有不少AI创企“卖身”大厂。今年3月,微软以6.5亿美元收购了独角兽Inflection AI;随后,亚马逊也收购了Adept AI;8月,谷歌更是以25亿美元的估值买下了大模型独角兽Character AI。

在大模型爆火后,各类大模型初创公司集中涌现,AI泡沫也在迅速膨胀,经过近两年的发展,成本高昂、变现困难等问题逐渐暴露,市场对大模型的态度也渐趋理性。对于这些AI创企来说,若拿不出市场需求的产品,投资人的耐心便会逐渐耗尽破产、倒闭、被收购就是这些AI创企最后的结局。

如果站在整个行业发展的视角来看,任何新兴行业的快速发展过程中往往都会经历一段泡沫期。对于大模型领域而言也不例外。当浪潮褪去,能留下来的才是“精品”。

李彦宏在对话哈佛商业评论总编时也也表示,技术浪潮在经过最初的兴奋期之后,泡沫都难所避免。不过泡沫过后会有1%的企业脱颖而出,为社会创造巨大价值。

国内主要大模型最新进展

百度

近日,在百度世界2024大会上,百度创始人李彦宏发布了检索增强的文生图技术(iRAG)和无代码工具 “秒哒”。

文心iRAG用于解决大模型在图片生成上的幻觉问题,极大提升实用性;无代码技术“秒哒”让每个人都拥有程序员的能力,将打造数百万“超级有用”的应用。

截至11月初,百度文心大模型的日均调用量超15亿,相较5月披露的2亿,增长7.5倍,相较一年前首次披露的5000万次,更是增长约30倍。

李彦宏表示,“这条陡峭得增长曲线,代表着过去两年中国大模型应用得爆发。”他还强调,智能体是AI应用的最主流形态,即将迎来爆发点。

同时,百度文库和百度网盘联合发布“自由画布”,用户可以在这个界面上自由拖拽各类富媒体素材,包括文档、音视频等,轻松实现多模态内容的快速生成。

小度科技也发布全新AI硬件产品小度AI眼镜,称其为全球首款搭载中文大模型的原生AI眼镜,预计明年上线。

10月16日消息,百度创始人李彦宏在与哈佛商业评论总编辑殷对谈时表示,正如历史上的所有技术浪潮,在经历过最初的兴奋期之后,泡沫难以避免,但泡沫过后,会有1%的企业脱颖而出,为社会创造巨大价值。

李彦宏谈认为,过去18个月,大模型领域的最大变化是回答问题的准确性,此前,人们总是担心大模型的幻觉,但现在这一问题已基本被解决。他还指出,未来5-10年,每个人都将拥有程序员的能力。

科大讯飞

10月24日,讯飞星火4.0 Turbo升级,七大能力全面超过GPT-4 Turbo,数学和代码能力超越GPT-4o,国内外中英文14项主流测试集中讯飞星火4.0 Turbo实现9项第一。与此同时,国产超大规模智算平台“飞星二号”正式启动。

在语音识别领域,科大讯飞的远场高噪场景语音识别领先优势进一步扩大。全球1024开发者节上,科大讯飞首次发布了星火多语言大模型,除中英文外,可支持俄、日、阿、法等8个语种。

同时,科大讯飞首发10项基于讯飞星火底座能力的硬核产品与创新应用:定义多模AIUI标准,发布超拟人数字人;发布星火多语言大模型、讯飞星火医学影像大模型、汽车端侧星火大模型;发布首个基于“问题链”的高中数学智能教师系统、星火智慧黑板2.0、AI作业过滤器等;发布星火智办一体机、智能座舱人机交互效果评测机器人VIAS以及科大讯飞多语种AI翻译透明屏。

阿里

10月16日消息,阿里国际副总裁、AI负责人张凯夫在接受彭博社专访时表示,阿里国际最新研发的Marco翻译大模型已在阿里国际AI国际官网Aidge上发布,面向全球用户开放使用,支持中、英、日、韩、西、法等15种全球主流语种。

基于目前广泛使用的开源评测数据集Flores,Marco翻译大模型在BLEU自动评测指标上,领先于市面上的标杆翻译产品,如Google翻译、DeepL、GPT-4等。这意味着,Marco的AI翻译能力总体已经超越全球竞争对手,成为行业第一。

10月28日消息,阿里巴巴国际站发布了首个全流程AI产品—“AI生意助手2.0”。该产品在发品、接待、营销、合规领域分别为中小企业配备了4个专业的AI agent,旨在实现整个外贸经营的全流程托管。阿里国际总裁张阔表示,外贸行业正在全面AI化,AI技术将重塑外贸的供需匹配和经营模式。

目前,全球已有超过6万中小企业在使用阿里国际站的AI产品,AI发布的产品规模达到700万。数据显示,通过AI优化的产品链接,在海外市场上的支付转化率提升了52%。

360

10月29日,360 AI搜索在更新中全新接入了腾讯混元大模型。

此次更新之前,360 AI搜索的CoE(collaboration-of-experts,专家协同)技术架构已经接入了包括百度、文心一言、通义千问、讯飞星火等在内的国内16家主流大模型。

更新后,360 AI搜索的“切换大模型”功能提供了更多选择,用户可以在“标准回答”搜索模式下自由选择使用腾讯混元大模型来重新生成搜索答案。这种多模型接入的方式使得360 AI搜索能够根据用户搜索意图自动调用最合适的大模型,从而提升搜索的准确性和用户体验。

十月底,360智慧商业推出“360AI营销云平台”,助力中小企业。该平台依托360智脑大模型,为用户提供标准化、多元化的功能,覆盖文案策划、图片设计、短视频制作、销售运营等高频营销场景,帮助企业打通从引流到转化的营销全链路。

腾讯

10月23日,腾讯推出了智能工作台产品ima.copilot。由腾讯混元大模型提供技术支持,专为提升用户在搜索、阅读和写作过程中的效率而设计。它作为“会思考的知识库”,通过从全网信源获取信息并整合到用户的个性化知识库中,帮助用户实现智能问答和内容管理,集成了搜索、阅读、写作等功能。

目前,ima.copilot推出了Mac客户端,供用户下载体验。腾讯表示,未来将推出更多版本,以满足不同用户的需求。

10月29日消息,微信正灰度测试AI问答功能,已被灰测到的用户可通过微信搜索框输入相关问题触发AI问答。该功能整合使用了腾讯内部技术资源,包括混元大模型。混元大模型是腾讯的核心技术之一,具有强大的中文理解与逻辑推理能力,能够为AI问答功能提供支持。

近日,腾讯开源两款最新大模型产品,分别是MoE架构的大语言模型“Hunyuan-Large(混元Large)”,以及3D生成大模型“Hunyuan3D-1.0”。

据了解,混元Large是目前开源领域参数规模最大、效果最好的MoE模型,而混元3D生成大模型则是业界首个同时支持文字、图像生成3D的开源大模型。

字节跳动

10月16日,火山引擎在上海举办飞连新品发布会,推出行业首个大模型IT赋能平台。该平台接入豆包大模型,通过All in One产品架构统管身份、网络、终端、数据等IT的核心要素,在多场景落地AI应用,助力企业提升IT管理效率和员工办公体验。

火山引擎飞连产品负责人刘威表示,飞连引入AI能力后,将帮助企业构建AI时代的办公基础设施,使IT管理者能够平衡安全与体验,落地企业管理制度,同时让员工通过自然语言对话解决大部分的安全和IT问题。

10月30日,字节跳动推出了名为“炉米Lumi”的AI模型分享社区产品。炉米Lumi集成了模型分享、Workflow搭建以及LoRA训练等多种功能,旨在为用户提供一个综合性的AI工具生态。用户可以在该平台上自由上传、展示AI模型,并与其他用户分享经验,促进技术交流与创新。

此外,炉米Lumi还支持用户根据需求自由组合各种模型,构建个性化的AI工作流程,以及在已有模型基础上进行微调,提升模型的实用性和效果。

目前,炉米Lumi仍处于内部测试阶段,尚未对外界公开,但已有用户通过特定网址“artistrylab.net”访问到该社区。

智谱AI

10月25日消息,智谱清言宣布全量上线情感语音模型GLM-4-Voice,标志着国内AI语音技术的重大突破。GLM-4-Voice是一款端到端情感语音模型,具备情感表达和情感共鸣的能力,能够模拟不同的情感和语调,如高兴、悲伤、生气、害怕等情绪,并用合适的情绪语气进行回复。

此外,该模型支持调节语速、随时打断并灵活输入指令,以及多语言和多方言的支持,尤其擅长粤语、重庆话、北京话等。智谱清言App现已集成此功能,用户可以体验到更自然、更流畅的语音交互。

同时,智谱还推出了AutoGLM智能体应用,能够模拟用户点击屏幕的手机操作助手和浏览器助手,不受限于简单的任务场景或API调用,操作逻辑与人类类似。

商汤科技

10月12日,中文多模态大模型测评基准SuperCLUE-V发布了10月榜单,商汤日日新·商量多模态大模型(SenseChat-Vision5.5)在多个任务上表现出色,总得分位列国内大模型第一梯队,荣获金牌。商汤SenseChat-Vision 5.5在数理逻辑维度取得第一名,超越了包括GPT-4o在内的所有国内外参评模型,展现了其强大的推理能力。

10月22日,在商汤科技成立十周年之际,公司董事长兼首席执行官徐立发布了题为《商汤十周年再出发:专注聚焦、知行合一》的内部信,宣布公司最新确立的“大装置-大模型-应用”三位一体战略。这一战略旨在通过数量级级别的优化,提升算力资源的使用效率,更好地服务客户。

徐立强调,在AI 2.0时代,商汤的核心战略是实现算力大装置、大模型和应用的无缝集成,以应用驱动模型,以模型带动算力的优化。商汤致力于成为最懂算力的大模型服务商,和最懂大模型的算力服务商。同时,徐立还提到,商汤有望在2026年实现盈利,这将主要得益于GPU算力资源使用效率的不断提升。

同时宣布了组织结构调整与裁员计划,以适应公司新确立的“大装置-大模型-应用”三位一体战略。此次裁员涉及智慧城市和商业事业群(SCG)、智能汽车事业群(IAG)、研究院、医疗等多个部门,而大模型和大装置两个部门未受影响。

商汤科技表示,此次调整是为了聚焦核心业务和战略增长领域,优化组织和人才结构。据报道,裁员规模可能在千人以上,赔偿方案为N+1。

零一万物

10月16日消息,继上半年千亿参数模型 Yi-Large 之后,零一万物正式对外发布最新旗舰模型 Yi-Lightning。在国际权威盲测榜单 LMSYS 上,Yi-Lightning 超越 GPT-4o-2024-05-13、Claude 3.5 Sonnet,排名世界第六,中国第一。

这是中国大模型在全球大模型竞技场上首次超越OpenAI GPT-4o。Yi-Lightning不仅在性能上表现出色,推理速度也有显著提升,较上半年发布的Yi-Large提升一倍,最高生成速度提速近四成。

同时,Yi-Lightning在保持高性能的情况下,实现了推理成本的进一步下降,每百万token仅收费0.99元,直逼行业最低价,为开发者和企业客户提供了高性价比的SOTA大模型服务。

月之暗面

10月11日消息,月之暗面宣布上线具备AI自主搜索能力的Kimi探索版,搜索量是普通版的10倍,一次搜索即可精读500页面。Kimi探索版通过模拟人类的推理思考过程,能够多级分解复杂问题,并执行深度搜索,以获得更准确和全面的答案。

据了解,Kimi 探索版已逐步分批上线 Web 端,内测过程中用户每天能用 5 次,移动端 APP 则将在后续上线该功能。

10月24日在横店举行的2024中国计算机大会上,快手副总裁、大模型团队负责人张迪宣布,可灵AI将内测视频人脸模型功能,并于近期上架独立App。

该功能基于创新的ID保持能力,支持用户自助训练人脸模型,并使用该模型进行5秒至10秒的文生视频创作,有效解决了AI视频生成中稳定人物IP角色的难题。

近期,快手已在App Store上线了“可灵AI”独立APP,目前,快手“可灵AI”已形成了网页版、APP、小程序、海外版等多端跨平台的产品矩阵。

据了解,可灵AI自2024年6月发布以来,已吸引超过360万用户,累计生成3700万个视频和超过一亿张图片。

在商业化方面,快手CEO程一笑在业绩会上表示,公司正在积极探索AI与视频场景的结合,以实现商业化变现。

另有小红书自媒体AI Dance报道,可灵AI商业化已有阶段性进展,收入或已达到千万级别,团队内部似有庆祝活动。暂时无法确定可灵AI的收入主要来自C端还是API。

夸克

近日夸克宣布全面升级“AI搜题”产品,并发布了“灵知”学习大模型。升级后,用户可以通过手机、平板、电脑等设备搜索各类新题和难题,并得到AI的分步骤讲解及随时提问支持。

夸克学习产品负责人程飞表示,升级后的“AI搜题”旨在满足大学生、上班族及家长在自学和辅导上的多样化需求,帮助用户从学会一道题到掌握学习方法。

夸克学习算法负责人杨扬提到,“灵知”学习大模型具备博士生能力,能提供颠覆性的推理能力、响应速度和知识正确性体验。

在最新评测中,“灵知”学习大模型在考研数学题上的正确率和得分率已比肩OpenAI最新发布的o1模型。此次升级标志着夸克在AI学习产品创新上的又一重要进展,旨在提升用户的学习能力与效率。