2030 年的 AI 大厂，五年前只在造车|人工智能|大模型|智能化|机器人|李想|理想|造车

一个做生成式 AI 应用的车企

理想汽车在苹果 App Store 上线的应用程序并不多。作为车辆与生态入口的理想汽车 App，用来控制车内功能和娱乐的理想遥控器，还有一个 to B 端的云端质量预警平台理想连山，曾经就是理想的全部手机端应用。12 月 27 号，他们上线了一个新 App，“理想同学”。

这个和车端智能语音助理同名的 App，打开后是一个对话框，看上去和我们熟悉的生成式 AI 界面别无二致。当然我们也可以点击左下角的摄像头按钮，这样可以调用手机摄像头、结合图像，与理想同学 App 连续互动。作为 AI 助理，它的一些能力令我感到惊讶，特别是对图像的识别以及“2D 映射 3D”的空间感知能力，很难不让人觉得，自己是在用一个专业生成式 AI 团队的成果……什么？这 App 是新势力车企做的？

其实吧，也很难再说它的开发者还是“车企”了。理想同学 App 推出的时候，理想刚好收官了连续三天的技术与人物访谈《2024理想AI Talk》。简而言之，大部分人眼中的理想是以制造新能源（特别是增程电动）家庭用车著称的新势力车企，然而在 2025 年开始的五年内，我们可能要见到一个人工智能新星的崛起。

“不做人工智能，我们什么都不是。”

大概在传统车企一代车的寿命周期，也就是七八年前，我们还认为汽车和人工智能根本找不到多少交集。那时候，汽车界的主题还是电动化，大家对“智能化是下半场”还没什么感知。不过后来，我们总算对智能化有了足够的认知。这得感谢一个叫 ChatGPT 的生成式 AI 应用。

ChatGPT 把“大模型”这个词带到大家面前，它通过模拟人类的思考方式，加上大规模数据和训练集群的强大计算能力，最终实现接近人类的信息理解与处理能力。在理想汽车董事长兼 CEO 李想看来，基于大模型的人工智能，将有能力帮助大家实现知识认知和能力的平权，进而改变人的社会和生活。

因此在 ChatGPT 走入大家视野前，理想内部在 2022 年 9 月就确定了将人工智能作为企业重要的发展方向和竞争力来源。接着就有了 2023 年初的内部信，李想希望这个企业在 2030 年成为全球领先的人工智能企业。到那时候，与其说是人工智能让汽车变得智能，不如说汽车是人工智能的一个入口和载体，是一个“带轮子的机器人”。

把今天的交通工具，变成以后连接显示世界与数字世界的“移动桥梁”，显然还是有不少前期准备工作要做。理想打算用什么方式，将这个愿景变成现实？也许我们可以从理想现在的产品、和产品背后的体系说起。

第一步：建造基座，用好 AI

让我们回到理想当下的核心产品，也就是汽车。无论是代表汽车智能化的“杀手级应用”智能驾驶，又或者声量暂时没那么大但逐渐得到重视的座舱智能，都可以看出理想对人工智能的热衷程度——智驾领域的端到端+VLM 双系统架构，理想最先提出构想并应用起来；Mind GPT 是行业第一个车载认知大模型，也是最早一批用上生成式 AI 大模型的智能座舱体系。

这些“首发”和“最早”，背后是理想对于人工智能“基础设施”的投入。理想每年超过 100 亿元的研发投入中，有近一半用在了这些看不见的地方。通过这些投入，理想建立了自研“基座模型”体系，这些模型就是一些通用的 AI 模型底座，如同初入职场的高效能新人一样，只需加以专业数据和微调的辅助，很快就能成长起来，处理细分领域的专业问题。以自研基座大模型打底，理想得以迅速地在几个领域形成产品和技术的“最佳实践”。前面的端到端+VLM 智驾架构、Mind GPT 智能座舱是车主们比较熟悉的。

除了这些，理想还有两个应用人工智能的领域。一个是理想的智能商业，通过 AI 总结经验、分析数据的能力，帮助一线零售营销团队快速学习复刻“金牌销售”的沟通技巧，也帮助客户服务团队整理和应对用户 FAQ，减少呼叫中心的坐席压力。

最后一个板块是理想的智能工业，一个包含生产管理、质量监控、生产工艺数据等集大成的 AI 平台，其中通过将生产人员、物料、设备、工艺介入理想 Li-MOS，人工智能可以协助工厂完成更准确的排产计划、物料运输、仓库管理，并且将生产流程内的数据导入大模型，判断生产质量并分析制造环节相关数据偏移趋势，在出现品质问题之前发现问题。

甚至在售后阶段，人工智能也可以通过故障相关数据的判读，提前感知故障发生的可能，减少车主发现-排除故障的周期。

进入智能化时代，这些大家平时看不见的软件、基座模型自研，与硬件技术的自研同样重要。这一过程中积累的数据，也可以理想的“2030 愿景”打下基础。

第二步：VLA、理想同学 App 与“具身智能”的新形态

完成了对人工智能研发和应用体系的基本建构，理想接下来要做的事就很清晰了。大模型本身的能力还可以进一步提升，另外，运用大模型的载体也会发生变化。

视觉语言行动模型 VLA 很可能是理想下一阶段的主要成果。如果说接下来智能汽车的完全集中式电子架构是下个时代的硬件，那么 VLA 这样融合语言、视觉（视频）和动作的多模态一体式大模型就是下个时代的“软件”。那时候可能没有所谓的“智驾大模型”“座舱大模型”，一辆车上只有一个统一的“智能体”，就像一个人既可以开车，又可以在同一时间和车上的乘客讲故事聊天一样。VLA 代表着大模型向“靠近人”的方向又走了一大步。

大模型的性能增强到这个程度，人工智能的载体也不会仅限于汽车（毕竟它有这么强的性能，只用于出行场景、出行载具确实浪费）。通过手机、智能家居主控等设备，将这个模型的可用范围扩展到人们生活的各个空间，也就自然而然了。现在的理想同学 App 或许就是大模型向外拓展的实验场景之一。

到那个阶段，汽车将成为具身智能的一种主要形式，而说到具身智能，我们第一时间想到的可能还是机器人。根据李想的说法，等到人工智能发展到某一个阶段，理想也将“概率上 100%”地去做机器人，但节点将放在 L4 级自动驾驶车辆之后。要等标准化道路场景的自动驾驶实现了，我们才能期待非标准化场景中活跃的理想家政机器人——或者，用李想的话来说，“硅基家人”。

总结

理想将通用人工智能 AGI 的运用分成三个阶段。第一阶段“增强我的能力”，人工智能辅助人类工作，需要人来监督，因为能力还有些不够。第二阶段是“成为我的助手”，意味着人工智能可以非常接近人类地独立处理事情、完成任务，这也被李想认为是人工智能的“iPhone 4 时刻”。至于最终目标，则是第三阶段“硅基家人”：无限接近人，完成人的工作，甚至保留人的记忆，成为人类社会中的一员。

以当前的技术发展水平，我们正处在努力向第二阶段过渡的时期。理想也是一样，他们也在等待自己的 iPhone 4 时刻。可能中途我们还会经历硬件的突破，或者需要找到人工智能的新发展范式，但这项技术的魅力，或许就在它的难以预测——谁知道一个 AI 大厂，以前是造车的呢？