打开网易新闻 查看精彩图片

随着摩尔定律放缓,实现性能提升所需的能耗不断增长,一些芯片设计者开始寻求替代架构解决方案。

Neurophos正是试图颠覆摩尔定律并实现模拟计算长期承诺但尚未开发潜力的公司之一。

这家位于德克萨斯州奥斯汀的AI芯片初创公司表示,他们正在开发一种光学处理单元(OPU),理论上能够提供470千万亿次浮点运算的FP4/INT4计算能力——约为英伟达最新发布的Rubin GPU的10倍,但功耗大致相同。

微米级超材料光学调制器的突破

Neurophos首席执行官帕特里克·鲍文表示,这种性能突破部分源于该公司过去几年开发的微米级超材料光学调制器,本质上就是光子晶体管。

"现在硅光子工厂生产的光学晶体管等效器件非常庞大,长达2毫米。你无法在芯片上放置足够多的晶体管来获得与当今数字CMOS竞争的计算密度,"他解释道。

鲍文表示,Neurophos的光学晶体管大约小1万倍。"我们在5月份收到了第一批硅片,证明我们可以用标准CMOS工艺实现这一点,这意味着它与现有代工厂技术兼容。"

利用这些晶体管,Neurophos声称已开发出光学版本的张量核心。"在芯片上,有一个1000×1000处理单元大小的单一光子张量核心,"他说。

这比大多数AI加速器和GPU中看到的要大得多,后者采用的矩阵乘法引擎最多为256×256处理单元大小。

然而,与英伟达GPU中拥有数十甚至数百个张量核心不同,Neurophos只需要一个。鲍文告诉我们,第一代加速器上的张量核心将占据约25平方毫米。

芯片其余部分是"支撑这个疯狂张量核心所需的复杂系统",鲍文说。

具体来说,Neurophos需要大量向量处理单元和SRAM来保证张量核心不会出现数据匮乏。这是因为张量核心本身——是的,整个掩模版大小的芯片上只有一个——运行频率约为56千兆赫兹。

但由于矩阵乘法是光学完成的,鲍文指出,张量核心消耗的唯一功率是驱动从数字到模拟再返回的光电转换所需的功率。

产品规格与时间表

Neurophos表示,其首款OPU代号为Tulkas T100,将采用双掩模版设计,配备768GB HBM内存,能够在1-2千瓦负载功耗下提供470千万亿次运算。

虽然这些数据听起来令人印象深刻,但重要的是要记住,这些数字目前更像是目标。该芯片仍在积极开发中,预计要到2028年中期才开始全面生产。即便如此,鲍文也不期望大量出货。"我们说的是数千片芯片,而不是数万片。"

虽然Neurophos相信其光学张量核心可以处理广泛的AI推理工作负载,但预计第一款芯片主要用作预填充处理器。

如前所述,大语言模型推理可以分为两个阶段:计算密集型预填充阶段(处理输入Token)和内存带宽受限阶段(生成输出Token)。

在过去一年左右,我们看到像英伟达这样的芯片设计者将预填充和解码分解到单独的GPU池中。对于最新一代GPU,英伟达开发了专用预填充加速器Rubin CPX。

鲍文设想Tulkas T100发挥与Rubin CPX类似的作用。"当前的愿景是,我们放置一个包含256片芯片的机架,与NVL576机架等产品配对,"他说。

长期来看,鲍文也计划解决解码阶段问题,但指出需要开发包括协同封装光学在内的各种技术,才能准备好处理Token生成。

资金支持与概念验证

虽然Tulkas T100要到至少2028年才能出货,但鲍文表示公司正在积极开发概念验证芯片来验证其声称的计算和功率密度。

本周,Neurophos完成了由Gates Frontier领投、微软风险投资基金等参与的1.1亿美元A轮融资,鲍文表示这将资助概念验证的开发。

Q&A

Q1:Neurophos的光学处理单元有什么特殊之处?

A:Neurophos开发的OPU使用微米级光学晶体管,比传统硅光子晶体管小1万倍,理论上能提供470千万亿次浮点运算,是英伟达Rubin GPU的10倍性能,但功耗相同。

Q2:Neurophos芯片什么时候能投入使用?

A:该公司的首款芯片Tulkas T100预计2028年中期开始生产,初期产量为数千片而非数万片,主要用作大语言模型推理的预填充处理器。

Q3:Neurophos获得了多少投资资金?

A:本周Neurophos完成了1.1亿美元A轮融资,由Gates Frontier领投,微软风险投资基金等参与,资金将用于开发概念验证芯片来验证技术可行性。