打开网易新闻 查看精彩图片

如果你也喜欢不客观实验室,希望和我们一起探讨数码相关的选题,请私信“不客观”,我们将回复您加群的方式,期待与你的见面~

作者|王飞
邮箱|wf@pingwest.com

理想汽车董事长兼CEO李想在几年前首次提出,公司未来是一家领先的人工智能企业的时候,并没有太多人get到他在表达什么。

随后理想公司的动作是:将公司汽车的销量挤到中国市场的领先地位,卖出年销量50万辆的汽车,在车上全部部署上端到端技术、Mind GPT,随后Mind GPT经过1.0/2.0,然后到3o多模态智能体的迭代后,理想决定推出理想同学App,让这个语音助手触及到更多的人。

在近日年底压轴举办的“2024理想AI Talk”活动中,伴随着那个男人——李想回归公众视野,理想同学App宣布在手机应用市场上线,理想汽车的人工智能战略路径也逐渐清晰。

在描述理想同学和理想智能驾驶这两个通常被认为独立领域的产品和场景时,李想用了一种不同与往的表达——“我们的大语言模型Mind GPT是认知智能,连接数字世界;而自动驾驶被称为空间智能,关乎物理世界。我们同时在这两个领域探索,并坚信认知智能与空间智能的结合——我们称之为VLA(Vision Language Action Model,视觉语言行动模型)——是一个更值得相信和追求的机遇。”

理想从汽车企业变成人工智能企业的表述,也正式被连接起来,“从企业角度来看,理想汽车是一家人工智能企业,我们要做的不是汽车的智能化,而是人工智能的汽车化,并将推动人工智能普惠到每一个家庭。从行业视角来看,汽车将从工业时代的交通工具,进化成为人工智能时代的空间机器人。在对整个世界的理解上,我们通过人工智能将物理世界与数字世界进行融合,让有限的空间实现无限的延伸。”

ChatGPT的对手,最终会是一家汽车公司?理想同学App的表现会是什么样?我们也率先对理想同学App进行了体验。

一切极简,上手难度低

从理想汽车的场景来看,理想同学有很多时间是被家庭中的小朋友使用的。

反过来看,很多理想家庭用户中的小孩第一次接触到人工智能,也是理想同学。在理想Mind GPT上车之后,家庭中的小朋友会用理想同学画画,或者和理想同学聊作业,甚至是陪他们娱乐,从这个角度来看,车的场景确实延伸到了下一代用户。

所以,一个上手难度低,且能给大部分人用的理想同学App就似乎有了一个“路径”。

从理想公布的理想同学App的功能来看:理想同学App是一款人工智能应用,目前具备两大功能:“知识问答”提供多领域的问答能力,包括汽车、出行、财经、科技等领域,并能处理多种文本任务,如撰写文章、翻译和创作文案等;“看世界”依靠视觉感知能力,帮助用户识别菜单、画作、动植物、汽车等上千种通用物品。

打开网易新闻 查看精彩图片

在苹果应用商店,理想同学App的分类是“效率”,力图成为一个随时随地陪伴你的智能助手。

理想同学App使用了理想同学在汽车上的形象,不管是图标还是内部的软件ui设计都采用了极简的风格。

打开App,直接注册/登陆账户就来到了主页面,整个软件的功能可以说非常简单:注册不需要必须是理想车主,可以是任何人,第一次登陆不需要设定复杂的个人信息,几乎是账号登录直接用,输入直接视觉、文字和语音,然后除去设置、开启新对话和查看过去的对话就没有其他功能了。

这确实很符合“效率”的印象,简洁的菜单,极速登录,甚至没有首次教程,不主动做推荐内容,可以说上手就开用——如果它真的针对的是家庭中的小朋友的话,那意味着它也觉得这个软件不需要学习成本。

像很多Kimi、ChatGPT软件在提问过程中其实会显示一定的loading时间,但理想同学App在这个过程做了一个动画反馈——理想同学App在AI生成内容的过程中,它会通过一系列生动的动效,展现AI的“思考步骤”和内容生成的“思维导图”。

当然,第一次看到这样的loading反馈确实很新鲜,觉得蛮有科技感,但每次看这样的过程有些人也会觉得有点无聊——你也可以在设置里关闭这个“思考过程”。

我们觉得理想同学App整体设计上确实没有什么上手门槛,如果按照苹果那种“不需要教程小孩子都可以直接上手使用”理论的话,这无疑是比较成功的。

另外,从理想同学初次打开推荐的话题来看——理想同学App的话题似乎比较倾向于财经、科技知识类。

常规的问题能在2-3秒内快速地返回内容,这比我在ChatGPT(可能是后台连接速度问题)上的反应似乎更快一些。

打开网易新闻 查看精彩图片

此外,视觉识别和理解印象也比较深刻:

打开网易新闻 查看精彩图片

比如让它识别了一段手写体的日文,我们用苹果自带翻译识别地非常错乱,但理想同学App还算是总结出了基本意思(也可以看到手写体部分识别错误):

打开网易新闻 查看精彩图片

让它识别天气,也可以结合网络信息检索和真实视觉:

左侧结合了视觉分析,右侧统计了网络信息
打开网易新闻 查看精彩图片
左侧结合了视觉分析,右侧统计了网络信息

从手机App到硅基家人

据理想,理想同学基于理想自研的行业首个车载认知大模型Mind GPT打造,23年12月至今,大模型已经迭代30多次。即将上线的Mind GPT-3o 是一个多模态端到端大模型,响应速度进入百毫秒级别,能够理解不同的模态,在一个模型内完成从感知到认知再到表达的完整的能力。理想同学的大脑升级为最新一代Mind GPT-3o之后,记忆、规划、工具、表达能力全面提升,也变得更加了解你、认识你、一直陪伴你。

从认知大模型Mind GPT到理想同学App更像是一个自然而然的过程。而为什么要做一个手机App,背后的问题是理想怎么看,以及为什么要自研大模型?

理想汽车智能空间AI负责人陈伟把理想做大模型描述为一个“逐渐达成共识的”的过程——线上的关于自然语言处理的技术,切换到了预训练的模式下,任务型对话能够在车里面,做车控、媒体、导航这样非常多垂域的覆盖,上面用预训练的模式能够快速高效地、高质量地完成这样的能力。

2022年年底,ChatGPT发布了。大模型带来的认知智能和语言智能上突飞猛进的变化,这件事情对理想汽车和李想本人来说,都有着非常大的震撼,当然理想内部在讨论:为什么我们没有快速地考虑把这个模型架做得那么高那么大。

李想则认为,应该回归用户体验,核心的问题在认知智能上面。要把理想同学的认知快速拉上来,指引了后续做基座模型。

打开网易新闻 查看精彩图片

李想认为今天仍然由OpenAl在定义AGI(通用人工智能),比如第一个阶段是聊天机器人,OpenAl完全按照这个定义做了最好的产品体验。第二个阶段是推理者,到第三个阶段Agent(智能体)的时候,才是真正的“iPhone 4时刻”,普通老百姓都能用了,它能独立地、持续地、连续地完成任务,而不需要靠密集的提示词。

“除了目前OpenAl宣称进入L2(推理者)以外,绝大部分的团队现在还停留在L1(聊天机器人)这个阶段。在这样的一个状态下,技术处于早期,而我们在做一个无限游戏。探索边界还不清晰的情况下,我们最重要的事情就是把握住目前的第一性原理Scaling Law(规模效应)。”陈伟称。

于是,理想同学就化身在空间智能里和手机App上,被定为了“硅基家人”。

不过,从目前反馈的内容质量上来看,确实很难看出各个应用之间的差异化。但理想尝试想做的:一是将行业类似的功能从可用提升到好用;二是将前沿产品转化为可用的场景和功能——从过去的产品定义上来看,这确实是这家公司的强项。

陈伟称,在追赶ChatGPT的过程中,Mind GPT数据保持快速迭代——现在的预训练数据规模量已经到10万亿Token的规模了,“在预训练后训练阶段,也要构建一套好的分段学习的逻辑,尽快地把强化学习后训练的事情做好。”

“Scaling Law(规模效应)本身在解决的问题是模型的效果、数据和模型规模之间的关系。我们越来越觉得数据不只是规模的,需要有高质量的数据才能把规模做上去,才真正有价值。”

这也符合李想本人的人工智能演进论,从第一阶段“增强我的能力”到第二阶段“成为我的助手”,最后成为“硅基家人”。

“我不需要再给它任何的指示了,我也不需要给它分配任务了,它就是我们的家庭成员,甚至是家庭重要的组织者,它不但了解我,它还了解我的孩子,了解我身边的朋友,甚至比我还了解。”

“它会主动去干很多事情,可以自主的衡量,帮我把这个家管理好。当AGI发展到第三阶段,是我的硅基家人后,我觉得很重要的点是说,我的记忆也会被它得以延续,可能我的肉体不存在了,但是我的记忆会变成它的一部分。”