生成式AI在投研领域已经遍地开花,DeepSeek却选择死磕金融推理。这到底是差异化突围,还是Quant背景下的路径依赖?
我跑了一段时间的vibe-investing仓库,用各种大模型提示词分析市场和个股,发现一个有意思的现象:DeepSeek追求的,是激进投资里的超额收益(alpha)。
核心差异不在计算,在上下文
金融AI的真正短板不是幻觉,而是"算了白算"。拉个远期市盈率、查个VIX波动率,搜索就能搞定。关键是把数字串起来,转化成"现在该不该买"的判断。
DeepSeek的解法是把MoE(混合专家架构)和基于强化学习的推理(思维链)揉在一起。一个模型内部同时处理数值计算、历史模式匹配、反向论证,全在一条推理链里完成。
比如检验"回调买入信号"时,它会走这几步:先给数字找语境("36%涨幅是事后诸葛亮,按年末买入算实际19%"),再处理历史例外(1939、1966、1970、1974年的失效案例),最后做因果归因(利率、油价、关税到底是"政治噪音"还是"结构性危机")。
这套流程模仿的是分析师的完整思路:形成假设→交叉验证→尝试证伪→给出置信度。
金融基因的源头:幻方量化
DeepSeek和通用大模型起点不同,根子在母公司。它不是在学术实验室或大厂研究院里诞生的,而是从国内头部量化私募幻方量化分拆出来的。
创始人梁文锋浙大毕业后,2015年联合创立幻方量化,把AI引入量化交易策略。公司2016年2月成立,到2025年12月管理规模约100亿美元。2025年幻方管理规模约700亿人民币(约100亿美元),平均收益率56.6%,在百亿以上量化私募里排第二。第一名的灵均投资录得73.5%。
算力基础设施的转换更有意思。梁文锋从2021年就开始大批量采购英伟达GPU,赶在美国对华AI芯片出口管制之前。这些卡最初服务于算法交易,后来成了大模型训练的底子。这种"交易算力→通用算力"的复用,让DeepSeek在硬件受限环境下有了不一样的起点。
MoE+强化学习,为复杂决策而生
DeepSeek-R1的技术选择很能说明问题。MoE架构把任务拆给不同的"专家"子网络,激活参数只占总量的5%-10%,推理成本可控。强化学习驱动的思维链则让模型自己生成中间推理步骤,而不是背答案。
在金融场景里,这意味着它能处理多变量博弈:既要算财务指标,又要 weigh 宏观政策,还得评估市场情绪。传统模型往往卡在"单点优化",DeepSeek的设计目标是端到端的决策模拟。
但这套方法能不能持续产生alpha,现在下结论还早。量化私募的赛道拥挤,超额收益本身就在衰减。把交易层面的AI能力迁移到通用金融推理,技术复用度有多高,商业闭环怎么打,都是待解的问题。
至少有一点是明确的:DeepSeek不是想做"更聪明的金融计算器",而是在押注一个能模拟人类分析师完整决策链条的AI。这条路能不能走通,2026年可能是关键验证期。
热门跟贴