Achronix半导体公司正在推出Speedcore Gen4m,它是新一代嵌入式FPGA IP,设计为内置于SoC的AI加速器。
为了实现更高效的数据加速,Achronix的Speedcore Gen4针对更广泛的应用程序,包括用于数据包处理和接口协议桥接/交换的计算,网络和存储系统。但Gen4最闪亮的功能是Achronix的架构,它是机器学习处理器(MLP)模块。
通过将MLP添加到可用块库中,Achronix声称Speedcore Gen 4 - 专为7nm工艺技术而设计 - “为人工智能和机器学习应用提供高出300%的系统性能”,与Achronix自己的16nm Speedcore相比。
“MLP模块非常灵活,计算引擎与嵌入式存储器紧密结合,为AI / ML应用提供最高性能/瓦特和最低成本解决方案,”Achronix说。
为什么选择AI?
如今,几乎没有一家芯片公司的首席执行官会放弃进军人工智能市场。
△ 罗伯特布莱克
然而,Achronix总裁兼首席执行官罗伯特布莱克告诉EE Times,他在大约20年前就已经意识到FPGA的AI潜力。当他第一次见到安娜帕特森时,当时在Google上搜索搜索引擎算法时,布莱克说他突然意识到大规模并行性将是页面排名等功能的关键。“我记得像FPGA这样的东西有很大的优势。”
随着Patterson专注于软件,而Blake专注于硬件,“我们当时无法跨越鸿沟。但我很早就认识到人工智能,“他说。
当然,Blake并不是说FPGA是 AI /机器学习的 唯一解决方案。承认AI加速器的各种解决方案 - 从CPU,GPU到FPGA和ASIC-- Blake说,“这个市场增长如此之快,所以所有这些不同的解决方案都会有上升空间。”
与提供最大灵活性的CPU相比,ASIC的相同和相反的优势是效率。“但是ASIC的问题是,你能保持灵活性来做不同的工作量吗?”Blake问道。他指出,未来五到十年的挑战包括“我们希望加速的工作量以及我们希望对我们正在收集的大量数据集进行分析。”
Blake观察到,“当公司部署硬件加速时,他们将不得不仔细选择他们获得多少效率和保留多少灵活性。”在他看来,带有FPGA的Achronix“处于我认为我们的地方”可以获得非常好的效率,但我们保持灵活性来做不同的事情。“
Blake也看好FPGA在AI / ML应用中的新增长前景。
他估计目前的FPGA市场总额为每年55亿美元。“它每年都在以高单一数字增长。”相比之下,Achronix预测AI / ML应用中的FPGA市场每年增长超过50%。这是基于公司自己的估计以及各种市场研究公司的预测和银行的预测。
“这对我们来说太重要了,我们无视,”布莱克说。
FPGA的特定人工智能优势
Blake告诉我们,他完全了解“人们将FPGA放入'仅原型'或'仅连接'的桶中。”他补充说,“但如果你看到像AI这样的新空间中的FPGA, FPGA是工具箱中的另一个工具,提供另一个可编程引擎以及CPU和GPU。“
您可以构建任意宽度的数据路径引擎。
你可以提供你喜欢的任何功能。
您可以复制100次或1000次。
或者你可以把它拆掉并在几个周期后做一些完全不同的事情。
Blake说,FPGA是“一条大路引擎”。“这些类型的电路非常擅长处理这些千兆流和大规模并行性。他们可以非常快速地以非常好的电源效率实现这一目标。“
GPU与FPGA
如果是这样,为什么FPGA人员让像Nvidia这样的GPU公司长期在AI市场占据主导地位?无论是Xilinx,英特尔的Cyclone FPGA还是Flex Logix技术,FPGA供应商最近才出现在AI加速讨论中。
Blake解释说,由于GPU的图形功能,“我认为它们很容易以非常低的成本获得。有人购买显卡并开始进行人工智能培训非常容易。“
他指出,“这些GPU中的许多工作,因为它们的目的是做图形,所以做浮点运算。但是,从晶体管数量来看浮动点相当昂贵,而且功耗也是如此。“
Blake认为,尽管早期开发这些网络的分析和培训是在GPU上进行的,但是压力开始降低,从而降低了成本和功耗。这引发了对“FPGA架构的兴趣,你不必使用高精度浮点”,Blake指出。“您可以使用更小的外形尺算法,从而节省成本和面积。这已经开始变得非常重要,特别是在神经网络的推理中。“
FPGA提供数据路径的灵活性
就在昨天,IBM研究人员详细介绍了一种新的数字AI芯片,该芯片首次证明了使用8位浮点数成功训练深度神经网络(DNN),同时完全保持了精确度。深度学习模型和数据集的范围。“
人工智能处理中出现的精度较低的趋势如何与FPGA相媲美?布莱克说:“我喜欢这个故事,这种趋势将会持续下去。研究人员现在可以使用较低的算法获得相同或更好的结果。这绝对有利于FPGA架构。“
Blake说,“我可以建立一个比特计数器,8比特计数器,一比特矩阵乘法,或3比特或5比特或20比特。FPGA的一个优点是数据路径的灵活性。“
他补充道,“当你查看所有这些复杂的算法时,你会发现在这些算法的所有区域都不需要统一的算术精度。”当然,浮点可以覆盖所有内容。“但那将是完全矫枉过正的。”
Tirias Research的首席分析师Kevin Krewell承认,“使用FPGA或ASIC将是实现缩减浮点格式的明显方法。”
Achronix MLP
Achronix中的架构创新提出了许多架构创新,旨在提高每个时钟周期的运行性能和操作次数。
关键机器学习处理器的好处
例如,每个MLP包括本地循环寄存器文件,该文件利用时间局部性来最优地重用所存储的权重或数据。
MLP还与相邻的MLP块和更大的嵌入式存储器块紧密耦合。Achronix表示,其目标是提供最高的处理性能,最高的每秒运算和最低的功耗。
MLP支持多种精度定点和浮点格式,包括Bfloat16,16位,半精度浮点,24位浮点和块浮点(BFP)。用户可以选择性能,功率和面积的最佳精度。
此外,Achronix设计的Speedcore Gen4查找表(LUT)可以实现两倍于任何行业独立或嵌入式FPGA产品的倍频。该公司声称,领先的FPGA在21个LUT中实现了6x6乘法器,而Speedcore Gen4在11个LUT中实现了6x6乘法器,并且可以在1 GHz下工作。
竞争分析
与用于AI的其他处理内核(如CPU,GPU和ASIC)相比,FPGA的优势在于“它能够实现8x8乘法累加块,同时保持足够的灵活性来处理各种模型和框架,”Bob Wheeler--林利集团的首席分析师解释道。
Ayleix与其他FPGA供应商的不同之处在于允许客户使用嵌入式FPGA设计自己的加速器ASIC以进行机器学习,Wheeler补充说。Achronix还率先推出7nm eFPGA产品,并计划在2019年上半年推出Speedster 7nm独立FPGA。
END
热门跟贴