来源:市场资讯

(来源:卡莱特)

2026年,中国大模型市场规模预计突破700亿元,企业级大模型日调用量已从10.2万亿Token跃升至37万亿Token,半年间增长263%。大模型正从“百模大战”的通用底座时期,加速迈入行业深度渗透与规模化应用的新阶段。

关键问题应运而生 :如何让算力从“可用”变为私域“好用”?

LS910,就是卡莱特的答案。

打开网易新闻 查看精彩图片

本地化部署,数据不出域

910是面向企业级应用推出的国产AI推理服务器,专为安全分析、企业知识库问答、智能客服、文档理解、代码辅助等核心业务场景设计,支持Qwen3.6-27B等主流大模型的私有化部署。所有数据和推理过程均运行在客户本地环境,真正实现数据不出域,满足信创合规与数据安全要求。

企业知识库问答

打开网易新闻 查看精彩图片

长文档理解与摘要

打开网易新闻 查看精彩图片

会议纪要

自动生成

打开网易新闻 查看精彩图片

代码辅助

与安全分析

打开网易新闻 查看精彩图片

深度调优

让每一分算力充分释放

  • 规格参数

模块

规格

主控单元

Kunpeng 920 24 Cores

AI算力核心

昇腾Atlas 300I A2(910B)

64GB HBM显存

软件栈

CANN/MindSpore+自研优化层

提供OpenAI兼容API

  • 私域主流模型指标(Qwen3.6-27B)

能力项

参考指标

推荐上下文

128K tokens

(可选升级至256K)

单路输出速度

≥25tokens/s,

典型场景25–45 tokens/s

首Token延迟

上下文2–4秒,

32K上下文4–12秒

实时并发

2–3路流式生成

在线会话

6–10个并发接入

灵活扩展,从单卡到多卡

业务增长时,通过增加算力卡即可平滑扩展,同一架构无需调整,保护前期投资。

Edge标准版(1卡):单部门知识库、智能助手

Max专业版(4卡):全公司多用户、长文档、多知识库

Pro高性能版(8卡):高并发或262K超长上下文任务

LS910大模型推理服务器,得益于昇腾910B算力底座与卡莱特全链路软件调优能力,可广泛应用于企业知识库问答、长文档理解、代码辅助等私有化AI场景。

产品采用“硬件 + 算子优化”一体化设计理念,实现推理吞吐、响应延迟、并发能力的平衡调优,可根据业务需求从单卡弹性扩展至多卡,在保障数据安全的同时,提供优异的性能表现与性价比。

欢迎更多业务伙伴垂询

打开网易新闻 查看精彩图片