商汤CEO徐立：算力、模型与应用“三位一体”，催生AI 2.0的超级时刻｜2024 T-EDGE|人工智能发展平台|商汤ceo|埃隆_马斯克|徐立(演员)|算力|超级

12月6日-7日，2024 T-EDGE创新大会暨钛媒体财经年会在北京市大兴区举办，以“ALL-in on Globalization ，ALL-in on AI”为主题，汇聚全球科技和商业领导者，共同探讨人工智能对全球各行业的巨大影响，以及企业全球化增长新格局新趋势。作为钛媒体集团每年年终举办的科技和财经领域的顶级盛会，T-EDGE一直代表了钛媒体在科技与经济前瞻性，以及推动国际创新交流上的高质量追求。

12月7日，T-EDGE 全球AI论坛：All-in On AI会议上，商汤科技董事长&CEO徐立博士以“AI 2.0的思考与挑战”主题，围绕 AI 大模型发展背后的算力、模型和应用“三位一体”等话题展开深入演讲。

AI的每一次突破，真正能够改变行业的，总是伴随着“超级时刻”的出现。徐立以今年诺贝尔奖这一超级时刻为例，一方面人工智能作为工具助力化学领域实现突破；另一方面，物理学作为工具反向推动了AI技术的发展。他指出，学科作为工具与目标同时被验证的现象通常需要长时间积累，而这一现象在同一年出现，反映了人工智能加速学科交叉迭代的强大力量，也证明了AI技术发展速度的迅猛。

AI 2.0的下一阶段怎么走？徐立认为，“我们正加速构建一个全新产业，输入能源，输出数字智能。”今年尤其是下半年，全球发生了诸多与“AI能源”相关的巨大投入，无论是OpenAI、马斯克的xAI、或是谷歌、微软、甲骨文等全球领先科技企业，均在算力板块进行快速且重量级的布局。

徐立举例称，甚至是以善于从第一性原理出发降本增效而闻名的马斯克为例，他的公司特斯拉在今年10月发布的三季报显示，GPU数量一年内增长了9倍，预计年底将达到9万块H100。而近期更是宣布计划将 Colossus 超算扩大十倍，集成超 100 万块 GPU。

这一现象背后的核心原因，就在于尺度定律（Scaling Laws）被发现并且连续在大语言模型、跨模态任务以及慢思考推理中持续得到验证，成为AI 2.0的理论基石。

“不管哪个维度的‘尺度定律’，计算资源的投入都是更大的规模。”在徐立看来，AI 2.0背后的关键，还是在于如何进行资源的衡量。通过对LeNet-5、AlexNet和GPT-4三代经典模型的数据对比，呈现出AI发展过程中成本结构的巨大变化。从参数数量、连接数量到训练时间，GPT-4的资源需求已达到数千倍至百万倍的增长。

“1.0和2.0最大的差别不在于专用或通用，而差别在于成本结构形成非常大的变化。”假设需要10万PFlops（每秒所执行的浮点运算次数）来做大模型，也就是要每年花费120亿美金构建基础设施完成任务，这是一个范式变化。

在这样的背景下，徐立强调，这不仅是技术优化的问题，更是新基础设施建设的时代命题。未来十年，除了构造高阶思维链数据，实现真正模型的差异化外，更重要的在于如何进一步优化算力成本、形成行业核心壁垒，这将决定AI的普及速度和商业化潜力。

相较诸多新创企业，AI 1.0时代十年的摸爬滚打，让商汤更加清晰地认知到“可持续”的重要性，在面对AI 2.0的快速变化中更加“老练”。徐立表示，近期公司确立了“大装置-大模型-应用”的三位一体战略，助力于解决训练和推理成本大幅下降、如何用好模型，从而指导下一个阶段的算力发展，赋能AGI的长远未来。

截至目前，商汤AI大装置 SenseCore拥有超过 5.4 万块 GPU，总算力规模高达 20000 petaFLOPS（每秒2000亿亿次浮点运算），能够支撑超过 20 个千亿超大模型同时训练，并支持万亿参数大模型的全生命周期生成。去年，商汤成为中国第三大智算服务商，与腾讯、字节、阿里、百度一同提供 AI 智算服务。

“AI算力本身不止是芯片。事实上，芯片的核心是做软件，算力的关键是做模型。如果不了解模型，光讲底层架构，实际上非常难。”徐立举例称，新的MoE（混合专家）架构模型的推理效率有差异化能力，如何通过应用驱动模型，以模型带动算力的优化，并最终提升算力资源的使用效率，这种“三位一体”是商汤科技在做算力、模型、应用层面的思考。面向AI 2.0时代，商汤致力于成为最懂算力的大模型服务商，和最懂大模型的算力服务商。

徐立指出，2025年将成为“数据中心之年”。AI基础设施建设将以更高效、更普惠的方式推动社会进步。通过不断突破技术与认知的边界，AI将助力人类探索更多未知的可能性。

（本文首发于钛媒体App，作者｜林志佳，编辑｜胡润峰）