庄钧堂昨天在社交平台宣布,自己已从xAI离职。这位主导Grok多代模型预训练的华人大将,成为xAI并入SpaceX后新一轮离职潮中的最新一员。
他在xAI工作了两年。期间负责Grok从早期版本到后续迭代的预训练工作,同时牵头X平台和Tesla上的语音模型预训练,以及xAI企业API模型的开发。官宣离职的两个月前,他实际上已经离开。
庄钧堂的履历跨度不小。本科在清华大学读工程物理,辅修法律。硕博阶段转到耶鲁,硕士学统计学,博士专攻生物医学工程。读博期间,他的研究方向是自闭症患者脑连接组的异常连接与诊断关联。
学术训练看似与AI无关,但他在这段时期提出的AdaBelief优化器,意外击中了深度学习的一个老问题——噪声梯度的粗糙处理。这个优化器根据模型对梯度方向的置信程度自适应调整步长:梯度方向与预期偏差大时迈小步,接近预期时迈大步。论文在NeurIPS 2020拿到Spotlight,后被PyTorch、TensorFlow、Google Flax、DeepMind Optax等主流框架收录。
加入xAI之前,他在OpenAI工作了两年。是GPT-4技术报告的联合作者,参与了GPT-4o和DALL-E 3的核心开发,提出GPT-4-Turbo 128k算法,并作为第一贡献者搭建了OpenAI的Embedding模型。这几项工作分别对应OpenAI在语言模型、多模态、图像生成和向量检索上的关键节点。
庄钧堂离职的同一天,xAI多名员工相继发出类似消息。三天前,马斯克刚宣布xAI不再作为独立公司运营,并入SpaceX,统一更名为"SpaceXAI"。消息发出后不久,离职潮密集爆发。
人员流失并非新鲜事。从2024年中开始,xAI联创陆续离开,SpaceX完成收购后进入密集期。到今年3月底,11位联创全部清零。Fast Company统计,过去一年内xAI可查证的离职员工已超过80人。
马斯克尝试过外部引援。今年3月,他把Mistral AI和Thinking Machines Lab联创Devendra Chaplot请来,直接向他汇报。但Devendra入职仅一个月便离职。马斯克后来承认,xAI"没有建立在正确的基础上,正在从头重建"。
4月,他转向与Cursor合作。Cursor员工开始出现在xAI办公室,由xAI现任研究负责人Aman Madaan主持联合会议。这次合作的目的之一,正是解决"留不住人"的困境。
人事动荡的另一边,Grok产品仍在推进。新版增加了连接器功能,支持接入邮件、日历、Notion等工具,帮助用户提取邮件、整理日程。马斯克还亲自下场驳斥"Grok将死"的传闻,表示新模型正在Colossus 2集群上正常训练。
这一表态也有背景。xAI刚刚把Colossus集群租给了竞争对手Anthropic,加上团队不再独立运行,外界难免猜测资源是否转移。马斯克的回应,算是解开了这部分疑云。
从OpenAI到xAI,庄钧堂的两次跳槽都踩在大模型竞赛的关键节点。他的离开,让xAI的预训练团队再失一员经验丰富的技术骨干。而Cursor员工的进驻,能否扭转马斯克"留不住人"的局面,还有待观察。
热门跟贴