Anthropic公司推出了一项名为“prompt caching”的新功能,该功能允许其API记住API调用之间的上下文,从而帮助开发者避免重复输入提示。这项功能目前处于公开测试阶段,适用于Claude 3.5 Sonnet和Claude 3 Haiku模型,而对最大的Claude模型Opus的支持即将推出。
Prompt caching允许用户在会话中保留常用的上下文,这样用户就可以在不同对话中引用这些提示,而无需增加成本。这在发送大量上下文信息并希望在与模型的不同对话中引用它时非常有用,同时也让开发者和其他用户能够更好地微调模型的响应。
Anthropic表示,早期用户在使用prompt caching时,在各种用例中都看到了显著的速度和成本改进,包括将完整的知识库、100次示例或对话的每个回合包含在提示中。
此外,缓存提示的一个优势是每token的价格更低。例如,对于Claude 3.5 Sonnet,写入缓存的提示成本为每100万个token(MTok)3.75美元,而使用缓存的提示成本为每MTok 0.30美元。而对于Claude 3 Haiku,缓存和使用存储的提示的成本分别为每MTok 0.30美元和0.03美元。尽管Opus模型的prompt caching尚未可用,但Anthropic已经公布了其价格,写入缓存的成本为每MTok 18.75美元,访问缓存的提示成本为每MTok 1.50美元。
不过,AI领域的知名人士Simon Willison指出,Anthropic的缓存只有5分钟的生命周期,并且在每次使用时都会刷新。
Anthropic通过提供具有竞争力的价格,试图与其他AI平台竞争。在Claude 3系列模型发布之前,Anthropic已经大幅降低了其token的价格。目前,它与包括Google和OpenAI在内的竞争对手在为在其平台上构建的第三方开发者提供低价选项方面展开了一场“价格战”。
其他平台也提供了类似prompt caching的功能。例如,Lamina,一个大型语言模型推理系统,使用KV缓存来降低GPU的成本。在OpenAI的开发者论坛或GitHub上,可以看到有关如何缓存提示的问题。
值得注意的是,缓存提示与大型语言模型的内存不同。例如,OpenAI的GPT-4o提供了一个模型记忆功能,可以记住偏好或细节,但它并不像prompt caching那样存储实际的提示和响应。
来源:venturebeat