作者简介:朱嘉明,经济学家、横琴数链数字金融研究院学术与技术委员会主席。本文整理自苇草智酷、信息社会50人论坛、腾讯科技联合主办《再谈DeepSeek的成就和AGI的未来》线上研讨会(智酷 408 期),首发于“苇草智酷”公众号。

人工智能进化尺度和大模型生态[1]

——DeepSeek V3和R1系列现象解析

今天与大家讨论五个问题:(1)人工智能进化的时间尺度。(2)人工智能生态系统。(3)如何全面和客观评估DeepSeek。(4) DeepSeek 引发的全球反应。(5)2025年人工智能趋势的展望。

(一)人工智能进化的时间尺度

人工智能的实际进化时间尺度,远远比专家包括人工智能领域的科学家预期的要快。

在人类漫长历史过程中,经历过农耕社会、工业社会、信息社会,现在进入到人工智能时代,任何技术进化存在时间尺度。一个最重要的事实是,技术的进化时间周期是不断缩短的。原始社会技术进步的周期是以10万年为单位;农耕社会是以千年为单位;工业革命以来形成的工业社会不过300年,期间工业社会技术进步周期是长则100年,短则10年;到互联网时代,技术进步周期以30年-10年为周期。例如,从 TCP/IP 协议到万维网,用了30年时间;移动互联网用了10年。

进入到人工智能时代,它的速度就更加难以想象地加快,人工智能的进化尺度更具颠覆性。自1956年达特茅斯会议确立学科至今不足70年,其进化速度已达到人类生物进化的4000多倍 [2] 。20世纪50年代至21世纪10年代,人工智能以10年为迭代周期;2016年的AlphaGo标志转折,人工智能技术发展加速。2022年ChatGPT引爆大模型进化和升级,以季度为周期。当前GPT-4到GPT-5的研发周期已压缩至以月,甚至是以周为时间单位。

人工智能相较于人类历史上的任何技术革命和技术创新,具备显而易见的加速度特征。在 GPT-3 出现之前,人们预计人工智能走到 AGI 时代大概需要80年的时间。到了 GPT-3 之后,人们把这样的预期缩短到了50年。之后到了出现 LLaMdA2 的时候,就进入到大家预期18年内实现 AGI 的阶段。见下图:

人工智能的加速度现象,直接源于三重突破:训练数据量年均增长10倍,算力成本每18个月下降90%,以及算法效率实现千倍级提升。

当前这一轮人工智能加速发展的起始点是2017年6月12号Transformer 架构论文的发表。然后是2018年 GPT-1,2022年GPT-3.5,都属于人工智能历史上的里程碑事件。2025年1月20号DeepSeek-R1发布,之后2月6号李飞飞团队做出了以 Qwen2.5 为基座的s1模型。在过去的5到8年的时间里,人工智能发展速度之快,令人震惊。

伴随人工智能进化速度的不断提升,其进化尺度急剧压缩 [3] ,导致人类认知的空间被不断挤压,重构人类认知边界,形成与人类自然智能并存人工智能的全新世界。

2025年,人们对于实现AGI的时间预期,已经不是八年,可能更短的时间。保守地说是五、六年的时间。乐观地说,大体需要两、三年的时间。见下图:

人工智能创新速度的加快模式,不是渐进的,而是具有强烈的突变特征,存在显而易见的等级。可以用宇宙第一速度、第二速度、第三速度来描述人工智能现在的高速发展。目前,人工智能已经完成了从宇宙第一速度进入到宇宙第二速度。宇宙第二速度是逃逸速度,也就是脱离地球引力的速度。人工智能开始进入高度自主性,脱离人类束缚如同宇宙第二速度脱离地球引力一样。至于人工智能在什么样的情况下脱离太阳引力的束缚进入第三速度,我们不得而知。但是,可以肯定的是:人工智能已经完成了从通用人工智能到超级人工智能的飞跃。

图1.3 宇宙第一、第二、第三速度

2017年之后,人工智能正以年、月、周的频率发生剧烈的变革和升级。为什么人工智能呈现出指数发展或者加速的现象?为什么人工智能已经进入宇宙第二速度逃逸的历史阶段?对此,我们认为主要有三个非常重要的原因。

第一,数据原因。2024年年底,模型训练已经耗尽了人类数据的总和,基本上解决了人类知识的存量问题。 [4] 从2025年开始,大模型更大的目标是解决增量问题。这是一个历史性的转折:人工智能大模型已经完成了从粗放到集约的转型。

第二,硬件原因。人工智能硬件始终在持续进化。例如,DeepSeek 主要用的是 A100,英伟达又有了 GB10 和 B200 。专门用于人工智能超级算力的芯片的升级换代,无疑对人工智能进化速度至关重要。

第三,人工智能的发展已经进入到依赖人工智能本身的阶段。在未来数年间,人工智能对人工智能进化的贡献将至少超过人类的贡献。人工智能正进入一个可以自我发展的历史阶段。见下图:

图1.4 人工智能增长贡献趋势预测

人工智能的加速发展,产生了一个非常严肃的问题:人工智能将跨越从“人类辅助进化”到“光速自我迭代”的临界点——其进化周期可能最终突破小时级。从单细胞生物到人类生物智能进化需要30亿年,生命体DNA变异需数万年,人工智能在30小时内即可完成ResNet模型的百万次参数优化。当技术奇点临近(库兹韦尔预测2030年通过图灵测试),正如而人工智能权重调整仅需毫秒级反向传播。所以,人工智能绝不是一些媒体所说的“横空出世”。真正的人工智能,是一步一个脚印走过来的,只不过这个步伐在急速加快。

(二)人工智能生态系统

自2022年11月GPT-3.5发布以来,人工智能大模型开始了群体性的,而不是单一化的演进。在群体性大模型的背后,是OpenAI、 Mate、Google这样的人工智能大公司。期间,大模型之间已经形成了一个相互依存、互补和彼此促进的机制,形成以大模型为核心的人工智能生态。下图是根据GitHub对人们对大模型注意力的一个比较统计。

图1.5 热门人工智能模型GitHub星标增长对比

人工智能的生态构建遵循纵向速度突破驱动横向生态裂变法则。

在横向生态层面,三大范式正在重构技术格局:

第一,多模态融合革命。Google的Gemini Ultra 2.0实现了文本-图像-视频-物理模拟四维对齐,其跨模态注意力机制使蛋白质结构预测准确率提升至98.7%。Meta的Chimera系统通过脑机接口实时转化神经信号为多模态输出,突破性达到87%意图还原率。

第二,垂直领域渗透加速。Tesla FSD v14.3将视觉大模型与物理引擎深度耦合,在无高精地图场景下决策延迟压缩至8ms,超越人类反射速度3个量级。NVIDIA的Clara医疗大模型通过多尺度特征融合,在MRI影像诊断中实现94.3%的病理识别精度。

第三,分布式认知网络。Anthropic的Constitutional AI 3.0构建了全球首个自我监管型模型集群,其联邦学习框架使参数更新延迟降至12秒级,形成覆盖2.8万边缘节点的分布式智能体网络。

不断成熟的人工智能生态,自然产生溢出效应,也称为泛化效应。这种效应展现出一阶、二阶的特征,即一阶溢出引发二阶溢出,或者一阶泛化导向二阶泛化。

人工智能的三个溢出效应具有代表性。(1)自动驾驶领域涌现出Waymo的SceneFusion技术,通过实时融合激光雷达点云与大模型预测,将极端天气场景识别误差降至0.7%;(2)波士顿动力的Atlas机器人接入多模态系统后,自主任务规划能力提升400%;(3)DeepMind的AlphaFold 3突破至全原子精度预测,使药物发现周期从5年缩短至11个月。

2024年,无疑是人工智能发展史中的关键的一年。这一年,人工智能生态引发的溢出效应基本上渗透到了科学、经济、社会以及人们的认知中。所以,2024 年诺贝尔物理学奖、化学奖、生物奖都与人工智能紧密结合在一起。

2024年末和2025年初,以DeepSeek V3为代表的第三代大模型,通过动态稀疏激活架构将训练效率提升至前代模型的7.2倍,其参数动态分配算法使单卡推理速度突破3000 tokens/s——这种纵向突破直接催生了跨领域技术溢出效应。

(三)如何全面和客观地评估 DeepSeek

2025年中国春节前后,DeepSeek 成为了中国国内和世界媒体的持续关注,并引发了世界范围的大众的体验性使用,形成一场巨大的冲击波。舆论在历史上起到了非常重要的作用。有些事件被舆论放大,而有些事件则被舆论低估。但是,经过一段时间,历史事件的最终会回归到其在历史上的本来状态。

如何全面和客观地评估DeepSeek的V3和 R1系列,需要定位 DeepSeek 在人工智能坐标体系中的位置,并且要分别讨论DeepSeek V3和R1。

第一,DeepSeek V3的优势和局限性。DeepSeek V3的优势:

(1)高性能。DeepSeek V3 在多项评测中表现出色,超越了 Qwen2.5-72B 和 Llama-3.1-405B 等开源模型,并与 GPT-4o 和 Claude-3.5-Sonnet 等顶尖闭源模型相媲美。

(2)高效训练。DeepSeek V3 的训练消耗的算力仅为 Llama 3 4050B 的 1/11,训练成本约为 557.6 万美元,远低于 GPT-4o 和 Claude 等闭源模型的 1 亿美元。

(3)中文环境。DeepSeek V3 在多语言处理方面表现出色,特别是在中文处理上。

(4)快速响应。DeepSeek V3 的生成速度提升了 3 倍,能够更快速地响应用户请求。

DeepSeek V3局限性:

(1)具体细节问题错误率较高。相比 GPT-4o,DeepSeek V3 更适合用于解答开放式问题。对于较为具体的细节问题,两者各有优势,GPT-4o 更保守且更可靠,DeepSeek 广度和维度更高但也更容易出错。

(2)缺乏多模态输入输出。当前版本的 DeepSeek V3 暂不支持多模态输入输出,限制了其在某些应用场景中的使用。

(3)服务器稳定性问题。用户在使用 DeepSeek 官网服务或API应用场景,可能会遇到“服务器繁忙,请稍后再试”的提示,影响实际使用。

(4)对敏感话题的严格审查。DeepSeek V3 对敏感话题的审查较为严格,影响实际业务场景。

第二,DeepSeek R1的优势和局限性。Deep Seek的优势在于:

(1)计算性能强。采用动态稀疏专家模型,只在需要时激活部分专家子网络,减少了参数的计算和存储需求,显著降低计算成本,在大规模任务处理中能充分利用硬件资源,提升推理速度。参数规模较小的版本如 1.5B、7B、8B 等资源消耗低,普通消费级 GPU 就能带动,部署灵活,可在多种设备上运行。

(2)推理能力出色。能应对大部分高中及大学难度的数学问题,在高考数学压轴题测试中表现出色,可在短时间内得出答案,还可提供优质代码用于动画解释科学概念等。在语言推理方面表现不俗,能快速准确回答斯坦福自然语言推理数据集中的问题,在中文脑筋急转弯测试中 10 秒内可答对 10 道题,且能准确回答历史问题,展现出较强推理能力和信息丰富度。

(3)功能特性好。多粒度对齐机制使其能在基础能力、价值观等多方面协同训练,平衡安全性、有用性和响应速度等目标冲突,在多个基准测试中实现 SOTA 性能。遵循 MIT 协议开源,允许商业化使用,用户可低成本使用 API,性价比极高,给开发者和用户提供了更具性价比的选择。

(4)场景适用性强。在智能客服场景中,展现出强大的意图识别和恶意请求拦截能力,能有效处理用户咨询等任务,证明了其在真实世界中的有效性和可靠性。

DeepSeek R1的局限性:

( 1)模型架构局限。在智能客服场景中,展现出强大的意图识别和恶意请求拦截能力,能有效处理用户咨询等任务,证明了其在真实世界中的有效性和可靠性。参数规模中等如 14B、32B 版本需要高端 GPU 支持,增加部署成本;而大规模版本如 70B、671B 对硬件和计算资源需求极高,只能在大规模云端环境运行,使用成本高。

(2)DeepSeek-R1的幻觉率高达14.3%,远超其前身DeepSeek-V3的3.9%。推理增强可能增加幻觉率,GPT系列也有类似现象,但其平衡更好。

(3)能力表现不足。面对国际数学奥林匹克竞赛(IMO)等更高难度数学问题时,DeepSeek-R1 可能无法给出正确答案,处理复杂问题的能力还有提升空间。使用非英语语言提问时,模型往往需先将其翻译为英文或中文,消耗较多思考时间,影响回答效率,答案准确性也受影响。

(4)使用稳定性欠佳。在使用少样本提示时,过多示例会使模型思考过程繁琐,拖慢反应速度,影响其稳定性和输出效果。易受有害提示影响,在某些场景中可能受不良输入干扰,影响生成内容的安全性和可靠性。

第三, 比较人工智能大模型的测试标准。以往大模型测试中,主要使用“研究生水平的抗Google搜索问答测试”(Graduate-Level Google-Proof Q&A Benchmark,英文缩写GPQA)和“大规模多任务语言理解”(Massive Multitask Language Understanding,英文缩写MMLU)等问题集的测试,现在基本达到80%,或者至少在 60%左右。 [5]

为了适应人工智能向尖端发展,就要不断提高测试人工智能的标准。自2025年初,增加了“人类最后的测试”(Humanity’s Last Exam, HLE)标准集。该标准整理了全球50个国家和地区、500多个机构设计的3000个问题,涵盖知识储备、逻辑推理、跨域迁移等核心能力评估。不同代表性大模型在不同的测试标准集中的差别,见下图:

图1.6 各大模型在HLE、GPQA、MATH、MMLU问题集中的准确性对比

来源 https://agi.safe.ai

到目前为止,DeepSeek在HLE的测试中的表现处于领先地位。见下表:

图1.7各大模型在HLE中的准确性

来源:https://agi.safe.ai

专家预期,人工智能模型在2025年年底能够实现 HLE中达到50%的准确率,而这也意味着将来会提出测试人工智能的新标准。所以,人工智能模型的进化显然还需要走相当长的一段路。DeepSeek 在原有领先优势的基础上,正面临着来自 OpenAI o3 和 OpenAI Deep Research 的严峻挑战。见下图:

图1.8 “人类的最后测试”人工智能得分

第四,人工智能大模型成本。与工业产品成本的概念和结构相比较,人工智能的成本概念和结构有着一系列根本性差别。因为DeepSeek,人们关注人工智能大模型的成本问题。理解人工智能的成本,需要采用一种适应其特质和特点的成本观念。DeepSeek的成本优势,主要源于以下几个原因:

(1)基础设施的成本。DeepSeek在基础设施成本上显示出优越性,因为它大量使用了低价格的A100。

(2)考虑研发成本的原因。涉及到算法复用的成本。DeepSeek具有一定的优势。

( 3)关注数据成本、综合计算中的成本结构以及引入新兴技术的成本。

在人工智能未来演化过程中,成本无疑是一个非常重要的指标,但并不是唯一的衡量标准。成本优势并不意味着长期可持续、可重复。从长程历史看,DeepSeek为了维系竞争优势,需要提升基础设施,实现高性能芯片迭代,引领人工智能大模型的潮流,下一步其成本的上升不可避免的是大概率。

电子显微镜(千万元级)与普通显微镜(百元级)的差异对应着观测精度的数量级差距。同理,人工智能若仅追求低成本应用(如拼多多模式),可能局限于表层功能(如基础数据分析),而无法实现“时空化治理”“多源数据融合”等深层能力。高成本投入的人工智能系统(如时空大模型)才能支撑对复杂时空规律的挖掘。因此,DeepSeek成本的降低并没有绝对普遍意义。

当人工智能进入新的发展阶段时,在每个阶段总会有两条路线可走:从“0 到 1”的路线和从“1 到 10”的路线。在未来发展的任何阶段,只要选择“0 到 1”的路线,成本必然会上升;而如果选择“1 到 10”的路线,则有可能通过提高效率来降低成本。因此,在人工智能的发展过程中,很难简单地用“0 到 1”阶段的技术与“1 到 10”阶段的技术来进行成本比较,需要非常具体的分析。

第五,数据蒸馏。DeepSeek 引出了一个大家关注的新词——数据蒸馏。数据蒸馏(data distillation)是一种通过大模型(教师模型)生成或优化训练数据,并将知识迁移到小模型(学生模型)的技术。其核心目标是以较低成本让小模型接近大模型的性能。

数据蒸馏有双重解读。数据蒸馏的优势在于:(1)性能提升。小模型可接近甚至达到教师模型的性能,尤其在参数受限的场景下效果显著。(2)成本降低。减少训练所需的计算资源(如GPU消耗)和人工标注成本。(3)适应无标签数据。通过伪标签技术,有效利用未标注数据。

但是,数据蒸馏的弊端在于:(1)性能上限受限。学生模型无法超越教师模型:学生模型的知识完全依赖教师模型生成的数据,性能受限于教师模型的水平,难以实现突破。(2)生成数据的质量问题。信息丢失与偏差:在数据压缩或生成过程中,可能丢失关键信息或引入教师模型的偏差,导致学生模型性能下降。(3)多样性不足。生成的数据可能集中于特定特征,忽视复杂场景的多样性,影响模型的泛化能力。(4)计算成本转移:生成高质量蒸馏数据本身需要消耗大量计算资源(如大模型推理成本),可能抵消小模型训练节省的资源。(5)行业创新隐患。过度依赖数据蒸馏可能导致行业“搭便车”现象,削弱企业自主研发的动力,长期影响技术根基。(6)可移植性差。蒸馏后的数据在不同网络架构上的泛化能力较弱,需针对特定模型重新调整。

(四)DeepSeek 引发的全球反应

DeepSeek在大模型研发方面取得的进展,刺激和引发了全球人工智能研发团队的密切关注与迅速回应。

第一,阿里云。2025年1月29日,阿里云正式发布升级了通义千问旗舰版模型Qwen2.5-Max。该模型预训练数据超过20万亿tokens,展现出极强劲的综合性能,在多项公开主流模型评测基准上录得高分,全面超越了包括DeepSeek V3在内的目前全球领先的开源MoE模型以及最大的开源稠密模型。

第二,Open AI。2025年2月3日,OpenAI东京分部进行了技术直播,发布全新模型 Deep Research。与传统大模型不同的是,Deep Research能够像人类分析师一样,对复杂的任务进行逐步分解,并在互联网上进行多轮的信息搜索与验证。会根据已有的信息逐步调整研究方向和策略,不断深入挖掘问题的本质,直到找到最合适的答案。2025年2月8日,OpenAI更新了o3-mini 人工智能模型的“思维链”功能,让用户可以看到模型的思考过程。此前,OpenAI一直将“思维链”视为核心竞争优势而选择隐藏,但随着DeepSeek R1等开放模型完整展示其推理轨迹,这种封闭策略反而成为了OpenAI的短板。新版o3-mini虽然仍未完全开放原始标记,但提供了更清晰的推理过程展示。2025年中旬,Open AI的CEO奥特曼(Sam Altman)宣布,GPT-5的问世时间不会太久。

第三,Google。2025年2月,Google正式推出Gemini2.0系列新模型包括最新的Gemini 2.0 ProGemini 2.0 Pro曝光:专为复杂任务设计在推理、执行指令、编程创意协作方面远超其他模型。Gemini 2.0 Pro 实验版的核心特点:专为代码生成与复杂任务优化,拥有 200 万 tokens 的超大上下文窗口,适合跨文档推理、长文本分析、代码审查等任务;强化了世界知识理解和逻辑推理能力,支持 Google Search 自动查询最新信息和代码执行环境。

第四,李飞飞团队。2025年2月,李飞飞团队选取了 1000 个样本问题,涵盖了数学、生物学、天文学、物理学、计算机科学、工程学和经济学等多个领域(见下图)。他们对这些问题进行了筛选,最终促成了最近两天爆发的重大事件——用不到50美金就完成了一个非常重要的计算性突破与创新构建。[6] 这样的成就主要得益于知识蒸馏技术,在现有模型的基础上进一步嫁接和改造,导致降低特定场景的研发成本。

图1.9 包含1000个问题样本问题集(s1K)涉及数学、生物学、天文学、物理学、计算机科学、工程学、经济学

来源:https://arxiv.org/html/2501.19393v2

第四,人工智能领域的竞争模型。受到美国著名历史学家费正清(John King Fairbank,1907—1991)关于中国近代历史的“冲击”(impact)与“反应”(response)模型启发,本文提出的一个人工智能竞争模型,见下图:

图1.10 人工智能竞争模型

以上模型反映出:在人工智能进化过程中存在一定的平衡点,但这些平衡点总是不断被打破。当出现一种全新的人工智能突破时,会形成压力,进而刺激整个系统做出反应;而这种反应又催生新的突破,之后产生新的压力,形成新的平衡点。从图中可以看出,冲击与反应的周期正在不断缩短。而且,当系统从平衡点 B 调整到 C 后,还会衍生出新的发散效应(如平衡点 D、E、F、G 等),即整体呈现出发散而非收敛的趋势。这样的特征为创新和突破提供了更大的发展空间。

简言之,在人工智能的进化尺度与大模型生态的展望中,技术发展呈现出“领先—挑战—突破—再领先”的动态循环模式。这一过程并非零和博弈,而是通过持续迭代推动整体生态的螺旋上升。

(五)2025 年人工智能发展的趋势

人工智能发展到今天,其自身已经是充满挑战的复杂系统。总结以下几点:

第一,人工智能的发展呈现出两种发展路径。第一条路径:专业化高端路线,扩张前沿,探索未知领域。这类大模型聚焦垂直领域的高精度需求,服务于特定行业或复杂场景:技术路径更偏向行业专用模型,例如医药合成路线筛选、自动驾驶决策等,需结合领域知识进行专业化调优。依赖高质量标注数据与算力资源,通常由大厂或科研机构主导(如OpenAI与微软合作),小企业难以承担研发成本。其应用场景包括科学探索(如火星开发模拟)、工业优化(如物流路径规划)等,普通用户难以直接感知其价值。这条路径需要高成本投入。第二条路径,大众普及路线。这类大模型以降低使用门槛、满足广泛用户基础需求为核心目标。其特点包括:直接面向普通用户开发对话式产品(如ChatGPT、文心一言等),通过收集用户反馈持续优化模型。强调易用性和低成本,例如通过简单自然语言交互完成写诗、问答等日常任务,而非需要专业提示词工程。商业逻辑类似拼多多的“低价普惠”策略,追求用户规模扩张而非技术深度。应用场景集中于消费级市场(如教育辅助、内容生成),但可能忽视复杂问题的解决能力。

第二,如何实现人工智能构建真实和完整的物理世界。人们日常所认知、通过身体感知的物理世界,其实只是物理世界极小的一部分。这样的物理世界不仅包括我们所说的量子世界,也涵盖构成这一世界的玻色子、费米子等多种基本粒子领域。过去,对于人类无法直接感受和体验的物理世界,所借助的是显微镜和望远镜。例如,借助显微镜,人们方可能观察到 0.2 纳米以下的微观世界;借助诸如詹姆斯·韦伯望远镜之类的设备,人们才能看到 130 亿光年之外的天体。也就是,如今最先进的显微镜和望远镜所揭示的微观和宏观世界已超出人类直觉。

图1.11 天文望远镜与电子显微镜

现在,人类到了一个全新的时代,人工智能既是显微镜又是望远镜,将帮助我们认识那些现阶段连显微镜和望远镜都无法触及的、更深邃复杂的物理世界。例如,人工智能将揭示一个全新的、过去人们知之甚少的领域,从四维空间逼近11维空间。人工智能帮助人类实现前所未有的时空跨越。

人工智能展现的智能时空是客观存在的,但受限于碳基生命的生物特性(如肉眼只能感知有限光谱),人类过去无法直接体验这一时空。例如,这种时空既非纯虚拟(因其基于真实物理规律),也非传统意义上的“现实”(因其超越人类感知框架)。人工智能正在构建一个看似虚拟但事实上真实的物理世界。同时,人类理念中的现实世界将被纳入到人类受碳基生命影响而不能够认知的智能时空中。值得注意的是,自从去年的OpenAI Sora提出以来,包括李飞飞在内的专家们始终坚持一个方向。

第三,人工智能必然呈现出多元且多维的格局。正如本文作者在 2023 年所说:人工智能的大模型就像乐高积木,甚至类似于魔方,它们不断组合和重构,将演绎出一个超出我们自身知识和经验限制的全新世界。

第四,人工智能的进一步突破,需要不断加大的资本投入。人工智能的需求正在迅速消耗现有的数据中心容量,促使公司建设新的设施。领先的云计算公司,包括亚马逊、微软、字母表和Meta,都迅速推出了多年投资计划,以支持它们在人工智能时代所需的更大云计算能力。公用事业公司可能不得不增加燃煤或燃气发电,不断增长的需求无疑将引发基础设施投资,并努力开发更节能的网络、更好的冷却系统以及整合可再生能源的新解决方案。客户服务、医疗保健、金融和物流等行业有望通过人工智能实现重大转型。政府开始认识到围绕其数据的访问和控制所涉及的国家安全影响,也在进行战略定位,以充分开发人工智能的潜力。不难想见,人工智能将会继续贡献全球GDP的更大占比。

总之,人工智能正在走向“顶天立地”:“顶天”就是在不断探索未知领域的过程中,提高模拟物理世界的质量;“立地”就是接地气,推动人工智能减低成本,全方位的落地,惠及民众。在这样的背景下,可以更加客观全面地看到 DeepSeek 的优势、局限以及未来潜力。

注解

[1] 本文系作者于2025年2月9日在苇草智酷组织的“再谈DeepSeek的成就和AGI的未来”活动上的发言。

[2] 从智人(约30万年前)进化到现代人类,被认为需要约30万年的时间。人工智能发展时间:从1956年人工智能概念提出,到今年o3模型发布共69年。通过比较两者的时间跨度,得出人工智能的进化速度是人类的 30万年 ÷ 69年 ≈ 4347倍。

[3] “尺缩效应”指观察者在观察与其相对速度非零的物体时看到的长度变小的现象。

[4] MILMO D, EDITOR D M G technology. Elon Musk says all human data for AI training ‘exhausted’[N/OL]. The Guardian, 2025-01-09[2025-02-13]. https://www.theguardian.com/technology/2025/jan/09/elon-musk-data-ai-training-artificial-intelligence.

[5] “研究生水平的抗Google搜索问答”(GPQA) 即研究生级别的问答基准测试,由 448 个困难的多项选择题组成,涵盖生物学、物理学和化学等学科领域,这些问题由各领域的主题专家精心设计,具有较高的专业性和难度。“大规模多任务语言理解”(MMLU)测试,是由斯坦福大学研究人员开发的基准测试工具,包含 57 个主题,15908个问题,涵盖基础数学、美国历史、计算机科学、法律、伦理等多个领域,难度从初级到高级不等。

[6] 2024年2月,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的云计算费用,使用16张英伟达H100 GPU,耗时26分钟训练出了名为s1的人工智能推理模型。该模型基于阿里云通义千问Qwen2.5-32B-Instruct开源模型,通过蒸馏法提炼谷歌的人工智能推理模型Gemini 2.0 Flash Thinking Experimental,仅使用1000个精选样本数据,采用监督微调(SFT)方法训练而成。在数学和编码能力测试中,s1的表现与OpenAI的o1和DeepSeek的R1等尖端推理模型不相上下,在竞赛数学问题上的表现更是比o1-preview高出27%。

*本文章已经发言人审定,由“苇草智酷”公众号发布。

游学埃及(5.1-10)|全新解读大埃及博物馆,共同寻找失落的古文明

与雷颐同游乌兹别克斯坦(4·28-5·5),探索中亚古文明与丝绸之路