专门开发AI运算系统的Cerebras Systems周二(8/27)发布了AI推论解决方案Cerebras Inference,它在Llama 3.1 8B
模型上每秒可生成1,800个Token,在Llama 3.1 70B模型上每秒可生成450个Token,号称是全球最快的AI推论解决方案,比基于Nvidia GPU的大型云计算解决方案快上20倍,但价格只需1/5,性价比高达100倍。
Cerebras Inference基于第三代AI加速系统Cerebras CS-3,该系统的核心为第三代AI芯片级处理器Wafer Scale Engine 3(WSE-3)。
Cerebras曾经比较过WSE-3与Nvidia H100,指出WSE-3的芯片尺寸是H100的57倍,核心数量是H100的52倍,芯片内存是H100的800倍,内存带宽更是H100的7,000倍;也曾比较Cerebras CS-3与Nvidia B200,显示CS-3的表现同样大幅胜过B200。
目前Cerebras已被视为少数能与Nvidia匹敌的竞争对手,并已计划于今年下半年首次公开发行股票。
刚上线的Cerebras Inference有免费版、开发者版及企业版,目前其免费版很慷慨地提供了每日10万次的免费推论;开发者版在Llama 3.1 8B与Llama 3.1 70B模型上每生成100万个Token的价格分别是0.1美元与0.6美元;而提供微调、定制化服务及专门支持的企业版则可直接联系Cerebras以议价。
(http://www.niaomeng.com.cn)
来源:http://www.tfhdw.cn
(http://www.zenbi.cn)
来源:http://www.dcxd.com.cn
(http://www.bieqia.cn)
来源:http://www.aolebb.com.cn
(http://www.pooost.cn)
来源:http://www.htsjpt.cn
(http://www.fspearl.cn)
来源:http://www.cqgtjt.com.cn
(http://www.zuinvren.cn)
来源:http://www.mencan.com.cn
(http://www.7ssa.cn)
来源:http://www.leyouke.cn
(http://www.ghmi.cn)
来源:http://www.ph22.cn
(http://www.jindingtao.cn)
来源:http://www.spncp.cn
(http://www.100293.cn)
来源:http://www.lhcjg.cn
Cerebras还比较了Cerebras Inference以及各大主要AI云计算服务在基于Llama 3.1 8B模型的性能表现,发现它以每秒
生成1,800个Token的速度,远远领先Groq的750个、Fireworks AI的257个、together.ai的225个、perplexity的165个、OctoAI的164个、AWS的93个,以及Azure的79个。
提供独立AI基准测试的Artificial Analysis首席执行官Micah Hill-Smith指出,Cerebras在AI推论基准测试上领先群伦,它与GPU解决方案根本是不同等级,此外,Cerebras Inference上的Llama 3.1 8B/70B达到与Meta官方一样的16bit精度成果,对于有即时及高容量要求的AI应用开发者而言特别有吸引力。
此外,推论是AI运算中增长最快的领域,约占整体AI硬件市场的70%。Cerebras形容,每秒可生成上千Token的高速推论,堪比宽带网络的问世,预告了AI应用的新时代,让开发人员能够构建需要复杂、多步骤并即时执行任务的新一代AI应用。图片来源/Cerebras Systems
热门跟贴