国产大模型Kimi爆火！阿里、360、百度紧急“出手”|360|ai|kimi|上下文|大模型|百度|翻译|视频生成模型|阿里

3月21日，从通用人工智能（AGI）创业公司月之暗面（Moonshot AI）获悉，该公司推出的Kimi 智能助手已支持 200 万字超长无损上下文，预计今年将开启商业化模式。

Kimi 智能助手又称Kimi Chat，是月之暗面基于自研千亿参数大模型打造的对话式 AI 助手产品。月之暗面表示，Kimi智能助手长上下文处理能力，帮助用户解锁了很多新的使用场景，包括专业学术论文的翻译和理解、辅助分析法律问题、一次性整理几十张发票、快速理解API开发文档等。

“过去要 10000 小时才能成为专家的领域，现在只需要 10 分钟，Kimi 就能接近任何一个新领域的初级专家水平。用户可以跟 Kimi 探讨专业领域的问题，让 Kimi 帮助自己练习专业技能，或者启发新的想法。”月之暗面方面称，用户可以上传一份完整的近百万字中医诊疗手册，让 Kimi 针对用户问题给出诊疗建议。

据月之暗面联合创始人周昕宇透露，目前团队正在持续探索优化产品的方案，会结合长文本等能力做出更好的设计，今年公司在自研的多模态大模型上会有新动向。

Kimi爆火，网站一度宕机

OpenAI官方去年11月发布的GPT-4 Turbo支持128k上下文，大约相当于10万汉字。而Kimi智能助手在去年10月首次亮相时，就可支持20万汉字的无损上下文长度，是大模型产品里这一单项能力的冠军。

仅仅5个月后，月之暗面公司就宣布把Kimi的这一能力提升到了全新的数量级200万汉字。

根据SimilarWeb数据显示，去年12月Kimi的周访问量还在10万次上下，到了今年1月下旬才突破40万，但是从春节开始访问量疾速攀升，到现在周访问量已经超过160万次，2月访问量增长107.6%，仅次于百度文心一言与阿里通义千问（访问量均下降超30%）。

另据AI产品榜统计，在2月份的AI产品榜-全球增速榜中，月之暗面的Kimi的上榜访问量的增速为107.6%，增速位列全球第一。

3月21日，因流量突然剧增，有不少用户在社交平台上表示，kimi智能助手的APP和小程序无法正常使用。当天，月之暗面发布情况说明。月之暗面称，作为一家以技术为导向的公司，我们非常理解一个API的稳定性是能否投入实际生产的最关键因素之一，已经有多项应急措施正在实施，包括不限于：从3月20日观测到流量异常增高后，已经进行了5次扩容工作。推理资源会持续配合流量进行扩容，以尽量承载持续增长的用户量；设计了一套更有效的SaaS流量优先级策略，以保障付费用户的调用稳定，预计3月25日之前完成并上线。

Kimi Chat：开启AI“长文本时代”

公开资料显示，月之暗面成立于2023年4月，法定代表人杨植麟毕业于清华大学交叉信息学院。截至目前，月之暗面公司已完成三笔融资，获红杉中国、真格基金等机构投资，最新一轮融资超10亿美元，投资方包括阿里、红杉中国、小红书、美团等，估值达25亿美元（约合人民币180亿元），是国内最主要的大模型独角兽之一。

去年 10 月 9 日，成立仅半年的 Moonshot AI 就推出了全球首个支持输入20万汉字的智能助手产品——Kimi Chat，宣布开启人工智能“长文本时代”。

此前接受媒体采访时，月之暗面创始人杨植麟表示，如果说参数量决定了大模型支持多复杂的“计算”，而能够接收多少文本输入（即长文本技术）决定了大模型有多大的“内存”，两者共同决定模型的应用效果。无损上下文将是通往AGI（通用人工智能）的关键基础技术。从 Word2vec 到 RNN、LSTM，再到Transformer，历史上所有的模型架构演进，本质上都是在提升有效的、无损的上下文长度。

月之暗面将长文本技术称之为大模型“登月计划”的第一步。对于长文本技术的开发，市场上出现了不同的技术路线。但在杨植麟看来，这些路线几乎都是在牺牲一部分性能前提下的“捷径”。杨植麟将其总结为三类：

“金鱼”模型，容易“健忘”。通过滑动窗口等方式主动抛弃上文，只保留对最新输入的注意力机制。模型无法对全文进行完整理解，无法处理跨文档的比较和长文本的综合理解。例如，无法从一篇10万字的用户访谈录音转写中提取最有价值的10个观点。

“蜜蜂”模型，只关注局部，忽略整体。通过对上下文的降采样或者RAG（检索增强的生成），只保留对部分输入的注意力机制。模型同样无法对全文进行完整理解。例如，无法从50个简历中对候选人的画像进行归纳和总结。

“蝌蚪”模型，模型能力尚未发育完整。通过减少参数量（例如减少到百亿参数）来提升上下文长度，这种方法会降低模型本身的能力，虽然能支持更长上下文，但是大量任务无法胜任。

杨植麟认为，简单的捷径无法达到理想的产品化效果。因此，月之暗面的技术路线，就是不走捷径，踏实地解决算法与工程的双重挑战，在算力、存储、带宽等技术层面做了极致的优化。

“Kimi文字能力达到GPT-4水平”

申万宏源表示，根据其内部测评，Kimi的文字能力全面达到GPT-4水平。Kimi中英文生成能力已经接近GPT-4水平，尽管逻辑推理能力仍有差距，且主打文字生成、目前无多模态能力；Cluade3中英文生成、理解、推理，多模态图片理解能力均与GPT-4接近，效果好于Gemini，且实际使用中生成速度快于GPT-4和Gemini。

银河证券认为，2024年AI应用元年有两个条件：1.大模型达到可使用状态：这点从Kimi用户好评如潮中可以看出；2.大模型公众可触达：目前Kimi已经面向全社会开放使用。Kimi智能助手是AGI进程中的又一“里程碑”，宣布大模型正式进入“长文本时代”。

华西证券研报指出，如果把上下文长度理解成大模型的“精力”，那么现在Kimi能够一口气精读500个甚至更多数量的文件，帮助用户快速分析所有文件的内容，并且支持通过自然语言进行信息查询和筛选。在Kimi还是20万字输入长度的时候，它的能力界限还在50个文件左右。

国信证券表示，Kimi凭借其在处理长文本方面的卓越能力，能够处理高达200万字的输入，显示出其在无损阅读方面的巨大潜力。这一突破不仅提升了内容创作和整理的效率，还为小说、剧本创作等领域带来了深化和创新，同时在游戏互动、AI陪伴和专业领域任务执行等方面开辟了新的应用场景。

国泰君安表示，Kimi此次更新后支持的200万字的上下文意味着模型的文本理解容量有了本质变化，应用落地场景也有望扩大。

中国银河证券认为，Kimi智能助手迭代速度超预期，Kimi智能助手是AGI进程中的又一“里程碑”，宣布大模型正式进入“长文本时代”，继续坚定2024年是AI应用元年，应用端商业化进程持续加速。

阿里、360、百度紧急“出手”

随着月之暗面Kimi的热度高涨，大模型领域竞争又重新激烈起来，互联网大厂们进入了“卷”长文本的阶段。

3月22日，阿里的通义千问官宣升级，向所有人免费开放1000万字的长文档处理功能。用户可通过通义千问网站和APP快速读研报、分析财报、读科研论文、研判案情、读医疗报告、解读法律条文、分析考试成绩、总结深度文章。

3月23日，360智脑宣布正式内测500万字长文本处理功能，该功能即将入驻360AI浏览器。目前360AI浏览器已向用户免费开放100万字长文本阅读功能，可一分钟读完《三体》，并就文本外的“超纲”问题进行问答和延展学习。

另据媒体报道，百度在下个月将对文心一言进行升级，届时也将开放长文本能力，文本范围在200万-500万。目前，文心一言的文本最高上限在3.2万。

此前2月，由李开复带队创办的AI 2.0公司零一万物发布Yi大模型API，同时启动邀测。零一万物为这次邀测提供了两种模型：Yi-34B-Chat（0205）和Yi-34B-Chat-200K。其中，前者支持聊天、问答、对话、写作、翻译等功能，后者则可以完成处理200K上下文、多文档阅读理解，以及超长知识库构建等任务。零一万物表示，本次重磅出台Yi-34B-Chat-200K API，将加速大模型应用进入“长文本时代”。

此外，OpenAI也在进行相关布局，经过三次升级，GPT-3.5上下文输入长度从4000增长至1.6万token（模型输入和输出的基本单位），GPT-4从8000增长至3.2万token。另外，Anthropic也将上下文长度扩至10万token。

大模型公司铆足劲攻克长文本技术，上下文本长度扩大100倍意味着什么？表面上看是可输入的文本长度越来越长，阅读能力越来越强。

若将抽象的token值量化，GPT-3.5的4000 token最多只能输入3000个英文单词或者2000个汉字，连一篇公众号文章都难以读完；3.2万token的GPT-4达到了阅读一篇短篇小说的程度；10万token的Claude可输入约7.5万个单词，仅22秒就可以阅读完一本《了不起的盖茨比》；40万token的Kimi Chat支持输入20万汉字，阅读一本长篇巨著。

另一方面，长文本技术也在推动大模型更深层次的产业落地，金融、司法、科研等精艰深的领域里，长文档摘要总结、阅读理解、问答等能力是其基本，也是亟待智能化升级的练兵场。

参考上一轮大模型厂商“卷”参数，大模型参数不是越大就越好，各家都在通过尽可能地扩大参数找到大模型性能最优的“临界点”。同理，作为共同决定模型效果的另一项指标——文本长度，也不是越长，模型效果就越好。

斯坦福大学联合加州伯克利大学以及Samaya的研究员，在一篇题为“中途迷失：语言模型的长·上下文利用之道”中提出：在多文档问题回答和键值检索，这两种都需要从输入的上下文中识别相关信息的任务中，大语言模型会随着输入上下文的长度增加，性能会显著下降。

作者指出，当相关信息出现在输入上下文的开头或结尾时，性能通常最好，但当模型需要在长篇上下文的中间获取相关信息时，性能明显降低。

换句话说：当带有答案的文字，被放在文章的中间时候，大语言模型可能无法准确识别、理解该答案。因此，大模型目前越来越卷的上下文窗口长度，可能并不能增加模型的理解能力。

据目前的用户体验来看，Kimi也不是全能选手。有用户反馈表示，对于一些较为困难的任务，包括结构化信息处理和图像中潦草文字的识别以及对话连续性，Kimi仍显示出一些短板。在生成能力和语音能力上，目前Kimi还未加入这些模态。

尽管如此，长文本能力的重要性仍不言而喻。

一家AI上市公司大模型架构业务人士表示，由于模型训练结构的限制，以往大模型的文本范围都不算长，但复杂任务和行业知识通常是长篇巨制，这种情况下，只能拆分输入提问，但这可能会导致输出的结果上下不连贯逻辑不通顺。长文本可以全篇连贯地去理解上下文，满足理解和问答的需求，长文本能力在此时是具备优势的。

责任编辑：张薇