端侧算力不足出路何在|人工智能|推理|显卡|端侧算力|英伟达

AI推理算力将长期处于“云端为主”的状态，这个“长期”至少是三到五年，绝大部分生成式AI推理，包括文字和图片生成任务，仍将上传到ChatGPT的数据中心，在云端完成。

如果连苹果等顶级手机开发商都做不到推理算力的“端侧化”，那么其他手机厂商就更做不到了。PC端可能比移动端的进展稍微好一点，但是在可见的未来，大部分AI PC（包括桌面工作站）仍将基于英伟达的桌面级显卡，而且只能执行参数规模相对较小的（蒸馏后的）大模型推理。无论从技术角度还是成本角度考虑，大模型及应用开发商都会更乐意在云端即数据中心完成大部分推理任务。资本市场再次认识到了这一点，所以WWDC举行之后，苹果股价跌而英伟达股价涨，一涨一跌说明了许多内涵。

国内AI算力紧缺的问题，不可能通过发展所谓“端侧算力”的方式去解决。自从2022年11月底ChatGPT横空出世以来，国内AI算力几乎始终处于紧缺状态，这是由下列因素共同决定的：

全球AI算力均十分紧缺，尤其在制造端，英伟达H系列显卡仅能由台积电代工（三星不行），产能瓶颈将持续到多年以后。
美国芯片出口禁令日益严格，尤其在2023年下半年国内厂商采购数据中心级显卡的难度与日俱增。

我们知道，AI大模型所需算力分为训练和推理两种，前者的要求更高一些；国内的现状则是两种算力都缺乏。如果没有云游戏，国内推理算力的瓶颈将更加严重。几年来，中国游戏产业是背锅产业，但是拯救AI产业的算力还得好好利用它。

即便如此，国内AI推理算力的供需关系仍然十分紧张。过去一个月，为了顺应政策导向，国产大模型的“降价”举措，就是“有价无市”：只有极小规模的采购才能以“刊例价”执行，稍大规模的采购就必须找销售人员单独洽谈并排队，实际成交价格肯定远高于“刊例价”。目前国内主流生成式AI应用的DAU普遍只有几百万量级，推理算力就已经如此匮乏；如果真的出现上亿DAU的AI超级应用，算力几乎肯定是跟不上的，据称文心一言和通义千问均自称累计用户超过1亿、每日API调用次数超过1亿。显而易见，市场决定资源分配是交易出来的结论，不是言语出来的结论，在算力短缺时代，为了保障应用开发，的确我们过去经历的太多“国家补贴”可以派上用场，但是造成的市场扭曲将是长期的。

据自媒体“怪盗团”分析介绍：“长期、严重的算力瓶颈，给国内AI产业带来了两个深刻影响。首先，算力紧缺意味着算力价格高昂（无论以自购显卡还是租用的形式），国内所有大模型厂商的售价均无法覆盖训练+推理成本，有些甚至无法覆盖边际推理成本，卖一单亏一单（最近一波降价之后可能亏得更严重）。其次，国内大部分算力集中在少量科技大厂手中，创业公司高度依赖它们，十分渴望它们以算力的方式投资入股。结论就是大模型创业在国内是一门非常差的生意。”

接下来我们算一下账：如果按照扎克伯格所谓的“H100等效算力”，国内的储备肯定不超过六位数，而仅仅Meta一家的“H100等效算力”就已经超过了30万张，2024年底将突破65万张，远远超过了国内所有大厂的算力储备之和（暂且我们不算卡脖子的细账）。

专业人士都分析过，国产替代不是技术壁垒，而是成本壁垒，这里规模经济规律是起作用的；特别是训练卡是以服务器（训练机）为单位出售；无论在理论上还是实践中，只要英伟达愿意认真执行芯片禁令，就是很难绕过的。虽然英伟达肯定愿意多卖几个客户、开拓中国市场，但现在它的显卡反正不愁卖，短期内也不可能主动承担破坏禁令的风险。

所以，端侧算力不足，可能最终出路还在云侧，而云侧算力最好的方式就是作为提供基础设施类的公共服务能力，换句话说，就如同电力作为公共服务能力可能主要由国家建设实施，民间投资建设为辅，这就是清华那位教授所言的“集中力量办大事”，在这个领域应该“国进民退”，而其它不少领域经过评估，可以“国退民进”，集中资源其中的定律就是规模效应。当然在战术上保持定力，就是仍然鼓励端侧算力；在战略上也要保持定力，不妨审视回顾一下“前苏联被忽悠加入星球大战竞争”而牺牲“民生”最终导致“崩盘”的历史教训，难度正是“竞争力和民生的选择题”，到底是“忽悠局”还是“必选题”，这方面的话题作为草根的我们没有能力做最聪明的判断，而国计民生对于“人工智能的”的敏感度测试以及能源政策的选择，也只有由最高层主持或许更全面，从多方面（包括草根）和正反方面获取经验，从研究失败中感知态势；最后，业者要信仰自己，因为“从来就没有什么救世主”，人工智能算力的破局可能要靠全球和全体业者的“合作救赎”。