日前,月之暗面方面宣布旗下Kimi开放平台正式公测上下文缓存技术(Context Caching),并公布了部署和使用流程。
据了解,上下文缓存是一种高效的数据管理技术,允许系统预先存储那些可能会被频繁请求的大量数据或信息。在该技术的加持下,当用户再次请求相同信息时,系统可直接从缓存中快速提供,无需重新计算或从原始数据源中检索,从而节省时间和资源。
这一技术适合用于频繁请求、重复引用大量初始上下文的场景,可显著降低长文本模型费用并提高效率。其中包括提供大量预设内容的QA Bot,例如Kimi API小助手;针对固定文档集合的频繁查询,例如上市公司信息披露问答工具;对静态代码库或知识库的周期性分析,例如各类Copilot Agent;交互规则复杂的Agent类应用,例如什么值得买Kimi+等;以及瞬时流量巨大的爆款AI应用,例如哄哄模拟器、LLM Riddles等。
值得一提的是,Kimi开放平台是国内首个面向开发者提供上下文缓存API的大模型平台。据月之暗面方面透露,在API价格不变的前提下,该技术可为开发者降低最高90%的长文本旗舰大模型使用成本。
而在降本层面,月之暗面以常见的固定文档大量提问场景为例,一份近9万字的硬件产品说明书,通常售前支持人员需要在10分钟内对产品的功能/使用方式进行40次问答,每次的问题大概在100个字,回答在120字以内。但在接入上下文缓存技术后,9万字的文档只需创建并存储一次缓存,40次问答将仅只收取问题的100字+回答的120字的费用,预计花费11.88元,相当于比之前节省了141.95元,费用降低90%左右。
【本文图片来自网络】
热门跟贴