CAG技术简化了系统架构,并确保推理仅依赖于预加载的上下文,从而提高了速度和可靠性。
消除实时检索,减少延迟并加快查询处理
预加载的知识确保准确性和连贯性,使其成为理想选择
删除检索组件,简化架构并提高可维护性
避免文档选择或排序错误,确保可靠和高质量的响应
相关文档或数据集经过预处理并加载到模型的扩展上下文窗口中。
该模型处理预加载的知识以生成KV缓存,存储注意力机制中使用的中间状态。
预先计算的KV缓存保存在内存或磁盘中以供日后使用。
在推理过程中,模型会加载缓存上下文以及用户查询以生成响应。
为了优化内存使用率,可以在必要时重置KV缓存。