DeepSeek API 缓存是什么意思?怎么计费的?

AI前沿4小时前发布 yizz
1,603 0 0
广告也精彩

什么是 DeepSeek API硬盘缓存技术

DeepSeek API 创新性地采用了硬盘缓存技术,旨在解决大模型 API 使用场景中用户输入内容重复率高的问题。例如,用户的 prompt 中可能包含重复引用的部分,或者在多轮对话中,需要重复输入之前的对话内容。

硬盘缓存技术将预计未来会重复使用的内容缓存在分布式的硬盘阵列中。当输入内容存在重复时,系统可以直接从缓存读取,而无需进行重复计算。这项技术不仅降低了服务的延迟,还大幅削减了使用成本。

DeepSeek API硬盘缓存 如何收费?

缓存命中的部分,DeepSeek 收费 0.1元/百万 tokens。这使得大模型的价格再次降低了一个数量级。未命中的部分按照正常价格收费。

如何使用 DeepSeek API缓存服务

DeepSeek API硬盘缓存服务已经全面上线,用户无需修改代码,无需更换接口,该服务将自动运行,系统自动按照实际命中情况计费。

注意: 只有当两个请求的前缀内容相同时(从第 0 个 token 开始相同),才算重复。中间开始的重复不能被缓存命中。

缓存举例

  1. 多轮对话场景: 下一轮对话会命中上一轮对话生成的上下文缓存。例如,你问:“北京今天天气怎么样?”,然后追问:“明天呢?”,那么“北京”这个词大概率会命中缓存。

  2. 数据分析场景: 后续具有相同前缀的请求会命中上下文缓存。例如,你多次分析同一份报告的不同部分,报告的开头部分可以命中缓存。

哪些应用能从 上下文硬盘缓存 中受益?

  • 具有长预设提示词的问答助手类应用
  • 具有长角色设定与多轮对话的角色扮演类应用
  • 针对固定文本集合进行频繁询问的数据分析类应用
  • 代码仓库级别的代码分析与排障工具
  • 通过 Few-shot 提升模型输出效果

更详细的使用方法,请参考指南:使用硬盘缓存

如何查询 缓存命中情况

API 返回的 usage 中,增加了两个字段,帮助用户实时监测缓存的命中情况:

  • prompt_cache_hit_tokens: 本次请求的输入中,缓存命中的 tokens 数(0.1 元 / 百万 tokens)
  • prompt_cache_miss_tokens: 本次请求的输入中,缓存未命中的 tokens 数(1 元 / 百万 tokens)

硬盘缓存 如何 降低服务延迟

输入长、重复内容多的请求,API 服务的首 token 延迟将大幅降低。

举个极端的例子,对 128K 输入且大部分重复的请求,实测首 token 延迟从 13 秒 降低到 500 毫秒

硬盘缓存 如何 降低整体费用

最高可以节省 90% 的费用(需要针对缓存特性进行优化)。

即使不做任何优化,按历史使用情况,用户整体节省的费用也超过 50%

缓存没有其它额外的费用,只有 0.1 元每百万 tokens。缓存占用存储无需付费。

硬盘缓存安全性 如何保障?

DeepSeek 在设计缓存系统时充分考虑了各种潜在的安全问题:

  • 每个用户的缓存是独立的,逻辑上相互不可见,从底层确保用户数据的安全和隐私。
  • 长时间不用的缓存会自动清空,不会长期保留,且不会用于其他用途。

为什么 DeepSeek API 能率先采用 硬盘缓存

根据公开的信息,DeepSeek 可能是全球第一家在 API 服务中大范围采用硬盘缓存的大模型厂商。

这得益于 DeepSeek V2 提出的 MLA 结构,在提高模型效果的同时,大大压缩了上下文 KV Cache 的大小,使得存储所需要的传输带宽和存储容量均大幅减少,因此可以缓存到低成本的硬盘上。

DeepSeek API并发限流 策略是什么?

DeepSeek API 服务按照每天 1 万亿 的容量进行设计。对所有用户均不限流、不限并发、同时保证服务质量。请放心加大并发使用。

硬盘缓存 的注意事项

  • 缓存系统以 64 tokens 为一个存储单元,不足 64 tokens 的内容不会被缓存。
  • 缓存系统是“尽力而为”,不保证 100% 缓存命中。
  • 缓存不再使用后会自动被清空,时间一般为几个小时到几天。

我认为:这 DeepSeek硬盘缓存 技术,颇有“开源节流”之风范。既能降低成本,又能提升速度,实乃大模型应用之福音。然而,这“尽力而为”的缓存命中率,却也让人有些许不安,仿佛那算盘珠子,总有几颗拨不到位。

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!