AI重塑手机，vivo的“非颠覆式”创新答卷|Vivo|ai|iphone|vivo|功能机|手机|智能机

在vivo开发者大会（VDC）开幕的几个月前，vivo的研发团队在深圳福田的办公室测试了一项新功能：让手机内置的AI智能体像人一样订餐厅。

和大部分AI应用不同，研发团队设计了一个大胆的构想：用户通过文本或语音下达指令，AI可以像真实用户一样，自己打开App，搜索并选择对应的餐厅，自行拨打餐厅电话订位。整个流程在用户看来，就像有一只看不见的手在操作手机。

一旦这个设想可以实现，理论上人在手机上能完成的操作，都可以交给AI完成。

vivo的思路是从订位和点外卖这两项相对基础且高频的场景开始。在点咖啡这个功能中，AI像人一样熟练的进入了商家小程序，按照指令选择了对应的杯型，甚至识别并关闭了促销广告。

这次技术探索，在今年10月10号召开的vivo开发者大会上首次亮相。

和去年一样，两届开发者大会的主题都是“同心同行”，但内涵却有所差异。去年vivo发布了自研的蓝心大模型与蓝河操作系统，第一次将AI兵工厂中的军火集中批量展示。一年之后，vivo打算直观的向开发者与消费者解释，复杂的参数和代码带来了什么改变。

这是vivo尝试用AI重构用户体验的365天，也是他们重新理解AI的365天。

重建规则

和许多被AlphaGo惊醒的公司一样，vivo对AI的大规模投入始于2017年。

周围是这项战略最主要的执行者，他在vivo工作了15年。2017年，周围受命带队vivo的人工智能研发团队，在这个团队组建前，他和其他高管走访了国内外各大高校，意识到学术界在人工智能上的探索，正在孕育产业化的想象空间。

ChatGPT出现后，vivo对生成式AI的投资更加坚决。相比新技术的开发，手机厂商更注重如何将新技术应用于终端产品，并带来更好的用户体验和附加值。ChatGPT像AlphaGo一样，直观的展现出了大模型的应用前景。

vivo的副总裁、OS产品副总裁、AI全球研究院院长周围

和研究机构不同，vivo是一家消费电子公司，周围则是硬件公司中软件团队的负责人。因此，他需要思考的不是单独的应用或研发项目，而是AI在公司战略中的定位，以及具体的执行策略。

在“过饱和投入”的原则下，vivo以大模型为中心，开始迅速补齐自身在底层技术环节的短板，代表性成果是去年VDC上一口气发布的三个参数量级，一共五款大模型。

2023年，vivo公布自研通用大模型矩阵“蓝心大模型”

然而，伴随自研大模型在各种榜单上频频刷脸，模型参数无止境的扩张，坐拥数十篇顶级期刊论文和数百项发明专利研发团队，却一度陷入迷茫。

同样的尴尬也发生在产业界，经历了如火如荼的百模大战，社会舆论对生成式AI的热情似乎迅速冷却。而身为AI落地最核心的终端载体，AI手机的革命性也许久停留在精心剪辑和渲染的演示视频。

2023年的VDC结束后，vivo的AI团队曾做了长时间的用户调研，希望搞清楚用户需要什么样的AI功能，但答案不外乎两类：一种是用户自己也说不清楚；另一种是过于超前，放在五十年后都属于科幻电影的素材。

作为团队负责人，周围带队技术攻坚的履历无可指摘，但面对难以量化极度朦胧的用户需求，他也需要反复思考。

一个关键问题是，除了少数经典的钉子户机型，市场上大部分手机，实际上都是货真价实的“AI手机”。

最典型的例子是苹果在2019年推出Deep Fusion：用户按下快门键拍照时，iPhone其实在短时间内连拍了9张照片，算法会在不到1秒的时间里，将这些照片“像素对像素”的精确叠合，最终合成一张最优质照片。

从2017年的A11处理器集成NPU（Neural network Processing Unit）模块开始，AI就迅速介入了手机中大大小小的功能服务，从翻译、修图到相册检索与推荐算法，只要不是太老的手机，基本都拥有从软件到硬件完整的AI功能。

A11处理器中首次出现了NPU

在这个背景下，如果要让AI脱离对原有功能本身的强化，而是塑造全新的改变，需要的是研发、组织和管理体系的重整。

2022年之前，vivo的研发思路是以功能性模块为基本单元，将分散在操作系统的各个功能分门别类进行开发。比如开发文档扫描、证件扫描、文字提取等功能，然后集成在相机、相册等系统功能里。第三方开发者也可以通过接口，开发各种功能性模块。

而当大模型以一种通用技术底层的形态出现，周围意识到类似“项目制”的研发策略已经难以为继，团队需要的是一个与大模型适配的“规则”，并在规则的框架下完成各种技术实现。

按照周围的说法，在没有明确应用方向的前提下，那就先给高楼打好地基，修成什么样再说。

如果说以蓝心大模型为代表的一系列底层技术是高楼的地基，那么去年VDC结束的时候，他就应该认真思考，高楼应该修成什么样了。

理解直觉，重构交互

开发者大会上，周围展示了OriginOS 5新的交互方式：用户长按屏幕会唤醒AI助手，在屏幕上圈选任意的内容，AI就会开始识别选定内容。用户将圈定内容拖动，AI会根据目标应用提供下一步服务。

OriginOS 5中，AI接入拖拽交互

按压、圈选、拖放是智能机时代用户早已习惯的交互逻辑，设备会根据预先设定好的交互逻辑完成对应的操作。但多模态大模型可以通过训练理解用户各种动作背后的意图，周围的目标是基于大模型的能力，构建一种新的交互规则。

vivo的企业文化中，有一条是虚心学习其他公司的长处，苹果之类的优秀公司，一直是其内部反复研究的对象。

iPhone并不是第一个采用触摸屏的手机，但它与功能机的差别在于，后者只是将物理按键的交互逻辑原封不动的转移到了触摸屏上。而苹果基于触摸这个交互方式，重新定义了一套交互逻辑。

举例来说，带有触摸屏的功能机在执行返回操作时，只是在屏幕上添加了一个可以触摸的返回按钮，但iPhone设计了滑动返回的交互逻辑。配合其他的零部件，开发者基于全新的交互逻辑，创造了水果忍者和愤怒的小鸟。

周围把基于新技术构建的交互逻辑称为“规则”，他提炼出的关键词是“直觉”。

vivo在多年前组建了一个算法团队，试图通过算法让用户拍出来的照片更美。但“美”这个字难倒了整座办公楼的算法工程师——什么是美？

把飘渺的词汇变成可以感知的产品是消费电子公司的核心工作，vivo内部“影像认知部”的成立很大程度来源于此，这个部门专门负责定义影像的“美”，接着由算法或硬件部门把这种审美技术实现，成为消费者可以使用的功能。

在AI团队的搭建过程中，vivo遇到了类似的问题——作为负责人，周围需要把复杂的用户需求和设计蓝图高度抽象，同时要确保抽象的概念能准确指引团队的研发流程。

除了AI，周围还负责Origin OS的开发和迭代，过去几年，他对系统研发的提出的一个词语是“流畅”，这个词又可以衍生出刷新率、图层等一系列技术指标，指引团队的开发。

过去一年里，周围想了很多词来概括自己脑海中关于AI那个不太清晰的概念，比如自然、优雅等等，但他认为最贴切的是“直觉”，即“这件事应该是这样的”——手指收拢图像会缩小，手指张开页面会放大。

依照这个原则，vivo的开发团队想到了一个方向：AI可以像人一样操作手机，像人一样打开App，选择菜单和功能，而不是通过各种各样的后台接口。

让AI帮用户买咖啡，是研发团队在这个方向指引下一次大胆的探索。周围称之为“手机智能体”，相比原有功能的强化，手机智能体的核心是基于用户的习惯和意图，可以主动进行识别与操作。

在开发者大会的演讲中，周围把手机智能体和自动驾驶类比，两者的确存在相同之处。

特斯拉对纯视觉技术路线的执着固然有成本的考量，但依照马斯克频繁念叨的第一性原理，既然人类驾驶员依靠视觉就能判断距离，那么只要有足够大的训练量，算法也可以依靠摄像头作出判断，不需要雷达的辅助。

这种相似性反映也启发了vivo的思路：利用AI创造新的交互方式，但这种交互没有破坏用户原有的、早已习惯的交互逻辑。

2019年，周围曾提出了一个大胆的设想：让AI成为真正的智能助手，扮演手机和App之间的一个重要角色。这个思路与后来AGI的构想相当类似，只是在当时过于超前。

但今天，vivo离他们的目标已经非常接近了。

挖足够深的地基

去年7月，《纽约时报》曾探访谷歌实验室，完整记录了基于RT-2模型的机器人智能闪现的瞬间：

桌子上放着恐龙、鲸鱼、狮子三个塑料玩具，工程师让单臂机器人“捡起灭绝的动物”，机器人拿起了恐龙。这里的难点不是机器人的抓取动作，而是它能识别三种动物，还能理解什么是“灭绝的动物”。

基于RT-2模型的Google机器人

周围将AI带给手机最大的改变概括为“系统记忆能力”，即AI不仅能执行用户的指令，还可以理解用户的行为。在今年开发者大会现场，他举了一个与谷歌机器人类似的例子：

用户可以对AI助手说，找出去年我和小贝在北京环球影城的照片，祝他生日快乐。

核心问题在于，AI需要理解“北京”和“环球影城”的含义，并在相册中准确的识别，而不是检索手机中文件名包含“北京”和“环球影城”两个关键词的文件。同样，AI还要理解“小贝”是谁，把照片和通讯录里的号码对应起来。

OriginOS 5中，由AI完成的图像记忆

这些设想伴随多模态大模型的出现已经不是问题，但对一家手机公司来说，把论文和代码变成可以使用的功能远没有那么简单。

首当其冲的是隐私问题——模型会读取用户的隐私数据，意味着关键数据和算法无法在云端处理，继而对手机性能提出了挑战，也是vivo“蓝科技”矩阵中多个技术方案诞生的契机。

2021年，vivo与联发科达成战略级技术合作，对vivo自研影像芯片V1和联发科当时的旗舰移动处理器天玑9000测试联调，目的在于提高两者的兼容性，最大程度释放两者性能。

随后，双方的合作成为了“蓝科技”板块之一“蓝晶芯片技术栈”，研发重心也转向了以更强的算力和更低的功耗，并在软件层面提高对算力的利用效率，保证大模型在终端的正常运作。

与之对应，vivo通过蓝河操作系统，让大模型融入系统的底层设计中，实现从应用到工具链的全方位突破。

今年的开发者大会，vivo公布蓝河操作系统2

今年的开发者大会上，vivo发布了新的30亿参数蓝心端侧大模型3B，思路依然是基于30亿参数这个端侧大模型“黄金尺寸”，在确保隐私安全的前提下，保证终端的用户体验。

暂时抛开“蓝晶”、“蓝心”、“蓝河”这些传播用途的修饰，vivo呈现出的是以一种系统性的软硬件研发能力，来指引各个技术条线的研发。

何为系统性的软硬件结合？即通过软硬件的协同能力，提高产品真实的体验而非单纯的参数。

2020年之前，手机品牌的技术投资趋势，大多体现为借助零部件更新增加产品卖点。大多数品牌的研发策略都开始向体系化的创新转变。

举例来说，当相机像素堆到5000万甚至1亿以上，对于拍照体验的改善会快速递减。此时，产品开发思路将注意力转向算法，通过降低快门延迟、加快成像速度等提高拍照性能。边际递减同样出现在快充场景，品牌们不约而同掏出曾经的120W快充，反而借助软件的运行策略的优化来降低功耗。

在开发者大会上亮相的OriginOS 5、蓝河操作系统2和升级后的蓝心大模型，也是这一转变的体现。

vivo的“蓝科技”矩阵

一座5层的建筑，需要一场誓师大会和工程师们大干三个月，但一幢百层的高楼，起决定作用的是地基的深度。

2024年的开发者大会上，vivo展示了这座大厦第一层的模样。

尾声

开发者大会开始前，周围曾提醒同事，团队对“手机智能体”的定位不是颠覆或革命，而是一种“探索”。

产业界喜欢把技术创新的长期主义形容为马拉松，其实不完全准确。因为马拉松有规划完整的路线和清晰明确的终点，但创新往往既无线路可寻，也没有明确的目标以供参考。

长期主义是vivo管理层很多决策的出发点，他们同时创造了一个非常vivo特色，也更贴切的词汇：埋头种因。

在无法预知终点的长跑中，大部分可量化的目标都没有意义。而大多数看似横空出世的创新，往往都是在反复的探索中，一点点描摹出来的。

全文完，感谢您的耐心阅读。

作者：李墨天

编辑：张泽一

视觉设计：疏睿

责任编辑：李墨天

AI重塑手机，vivo的“非颠覆式”创新答卷

热搜

热门跟贴

热搜

热门跟贴

相关推荐

传大陆镜头厂爆雷：已停供OPPO、vivo等手机品牌？

这是2024年的手机？全面屏+AI，提前用上未来的手机

偷偷给外国老丈人买了华为手机，看看他的反应

华为Mate一抓一放隔空传送，效果amazing！

带来平安的不是苹果，而是有一群人替我们负重前行

影视飓风2024年度相机颁奖：iPhone 16 Pro Max获最佳手机视频

苹果手机和安卓手机的区别，内容过于真实，看一次笑一次

坏了！苹果真有生产力了：我用3500块的Mac mini跑了这些大模型

国行 iPhone 用上 AI 了！通过跃问大模型实现视觉智能

安卓机“逆向”换iPhone 16？我替你试了，劝你慎重！

晒被子意外发现之前丢的手机 风吹日晒雨淋了3年居然还能用

苹果电脑丝滑玩悟空，实测有效！ Mac也能直面天命，手把手教你解锁. 只要你的电脑符合M2、内存8G

男子送女友假苹果，假苹果内竟暗藏玄机，“苹果是假的 但用心是真的”

女大学生的苹果手机坠湖瞬间，崩溃的边缘一直在尖叫

鏖战新兴市场：中国手机品牌开启新故事

女子意外找到丢失的备用手机，“漂泊”在外3年了还能开机使用

女子苹果手机左上角突然出现一黑点 不停翻通讯录和微信聊天记录

牛弹琴：石破茂上台后 中日在12月上演了一场年终大戏

悲催！网传南京一对夫妻自述买房经历，一夜返贫，血亏300多万

女生发现一台墨水屏手机“像模型机一样，但能正常使用”网友：这手机玩斗地主分不清大小王

晒被子意外发现之前丢的手机风吹日晒雨淋了3年居然还能用

男子送女友假苹果，假苹果内竟暗藏玄机，“苹果是假的但用心是真的”

女子苹果手机左上角突然出现一黑点不停翻通讯录和微信聊天记录

牛弹琴：石破茂上台后中日在12月上演了一场年终大戏