近些年,人工智能呈现突破发展,以DeepSeek为代表的LLM为整个行业带来了新的变化。
2月15日,由智慧途灵科技(成都)有限公司主办,AIGCxChengdu、四川省影视联合会沉浸式专委会协办的技术沙龙上,行业专家围绕DeepSeek技术优点、行业机遇及创新等话题展开了讨论。
DeepSeek的4个创新点
智慧途灵科技联合创始人&CTO吕磊从技术角度分析了DeepSeek的优势,他对比OpenAI O1与DeepSeek在运行效率上的差异,并认为DeepSeek在GPU上运行时,能够最大限度地利用GPU资源,将空白区域减少到最小,从而提高GPU性能。
“技术方面DeepSeek主要在MLA(Multi-Head Latent Attention)、MoE、多Token预测、FP8训练这四点比较创新。”
MLA(多层注意力)机制:通过优化注意力层的缓存过程,显著降低了缓存占用。例如,在处理大规模数据时,MLA机制能将原本需要存储的中间结果进行压缩,大大减少内存消耗,提高计算效率。
MoE(混合专家)架构:将多个专家网络组合,根据输入数据动态选择特定专家网络处理。就好比为不同领域的知识配备了专门的 “专家”,在处理某一特定问题时,能够精准调动相关专家网络,避免了整体激活带来的巨大计算开销,提升了模型的灵活性和效率。
多TOKEN预测技术:采用主模型和旁支模型协同工作,一次性预测多个Token,提高了生成速度。举例来说,在生成一段文本时,传统方法可能逐字推理,而多TOKEN预测技术可以同时预测后面多个字,就像多人接力跑步,同时启动多个选手,大大缩短了整体时间。
FP8训练方法:在保证训练基本精度的前提下,大幅降低了模型训练的内存占用和计算资源需求。通过8位浮点数运算代替传统的32位运算,减少了数据存储和传输量,降低了硬件成本,但提高了系统工程复杂性,获得了大规模模型的训练的高效和低成本。
国产GPU、端侧AI等迎来机遇
DeepSeek在AI赛道的高效低本特性,在全球开启了价格战,同时也推动了AI技术的广泛应用,也使智慧途灵科技看到了更多的市场机遇和挑战。
智慧途灵科技(成都)有限公司创始人徐梦曦认为DeepSeek为整个行业带来的变化,从Center for AI Safety(人工智能安全中心)最新发起的“Humanity’s Last Exam”测试中,虽然不如OpenAI最新的O3但也位于前列。“Humanity’s Last Exam”测试表明,在专业领域推理方面目前大模型依旧还有很长的路要走,这同时也是敢于挑战和创新的AI科研团队和年轻探索者的机会。
徐梦曦说:DeepSeek模型的爆红,不仅对OpenAI产生了影响,还对其他AI巨头如Anthropic、Meta、Mistral等带来了挑战,也是对现有硅谷为首的AI模型生态的重新定义。Anthropic公司虽然在多模态和语言能力上表现出色,但在推理模型上一直未有突破,DeepSeek的出现使其在to B 和to D领域的护城河面临崩塌风险。Meta作为开源模型的引领者,其地位也受到威胁,DeepSeek的开源策略和技术创新,使得Meta的开源生态护城河受到冲击。Mistral公司虽然推出了免费且高效的AI超级助手Le Chat,但在DeepSeek的竞争下,也面临着不小的压力。
另外在算力方面,DeepSeek采用的FP8工程优化和采用PTX,大幅降低了算力需求。这一改变不仅降低了训练成本,还为其他芯片厂商如Groq、LPU架构等芯片带来了新的机会。
“AI赛道的门槛将会越来越低,端侧AI的发展将越来越清晰,to C领域的应用场景将迎来突飞猛进的发展,如娱乐、生活、辅助等方面。但在to B领域,数据安全、多模态和推理能力依然是竞争的关键。DeepSeek模型的出现,不仅在技术上改变了范式,也在商业模式上引发创新和变革。”
专注AGI填补行业空白
作为专注于AGI道路探索的科技公司,智慧途灵科技通过提供高效、智能的AI私域模型和智能体解决方案,帮助企业实现数字化转型和智能化升级,目前已经在某985高校物理所原子与分子科研模型、电力生产安全分析模型、金融数据分析模型、Agent知识思维链工具、科技馆AI一键成片、文旅Copilot旅行助手等场景进行落地。
近两年智慧途灵针对更具效率的(SLM)小规模NLP模型积累了丰厚的研究心得和实际场景案例经验,使得SLM小规模模型和LLM大模型一样具备文本生成、问答和推理等多任务、多模态中展现了突现能力。此外,LLM通用大模型在专属知识领域、比如自然科学:物理科学、环境科学、生物科学、材料科学等。专属知识行业:航天航空、金融、医疗、半导体等专业领域的表现往往不足,原因在于缺乏足够的领域特定知识语料来强化学习,而私有化部署的专业数据标注模型和多重MOE模型正在填补这一类空白。
热门跟贴