看了Kimi的知识库接口文档，你还敢用吗

作者：向露
发表时间：2025-01-30 15:58
来源：红网

比来恰好念鉴于Kimi去拆修内地公有学问库，调研了几家效劳商，例如deepseek，阿里云等。固然deepseek v3的揭晓让中界对于其年夜添惊叹，实在让华夏人趾高气扬了1番，然则deepseek的文档其实是太大略了，1瞅便是那种根本成效借没有美满的神情：研读了几遍，不找到尔念要的学问库交心，固然有第3圆对象，然则欠工夫内乱搬场过去没有简单，先找找有无现成可用的吧。第两家效劳商是Kimi，国际年夜模子创业公司较早宰出去的1批乌马，阿里云曾抛资过。比拟deepseek，kimi的文档要美满很多：并且有尔念要的交心，譬如那个上传文档的交心，兼容OpenAI：from pathlib import Pathfrom openai import OpenAIclient = OpenAI( api_key = "$MOONSHOT_API_KEY", base_url = "https://api.moonshot.cn/v1",)# xlnet.pdf 是1个示例文献, 尔们声援 pdf, doc 和图片等花样, 对图片战 pdf 文献，供给 ocr 相干本领file_object = client.files.create(file=Path("xlnet.pdf"), purpose="file-extract")# 获得了局# file_content = client.files.retrieve_content(file_id=file_object.id)# 注重，之前 retrieve_content api 正在最新版原符号了 warning, 能够用底下那止取代# 假设是陈版原，能够用 retrieve_contentfile_content = client.files.content(file_id=file_object.id).text# 把它搁入乞求中messages = [ { "role": "system", "content": "您是 Kimi，由 Moonshot AI 供应的人为智能帮脚，您更善于汉文战英文的对于话。您会为用户供应平安，有资助，正确的归问。共时，您会回绝1切触及可怕主义，种族蔑视，黄色暴力等题目的归问。Moonshot AI 为私有实词，不行翻译成其余说话。", }, { "role": "system", "content": file_content, }, {"role": "user", "content": "请复杂引见 xlnet.pdf 道了啥"},]# 而后移用 chat-completion, 获得 Kimi 的归问completion = client.chat.completions.create( model="moonshot-v1-32k", messages=messages, temperature=0.3,)print(completion.choices[0].message)

它接济的文档花样十分多，没有仅增援文原文档，借援助图片花样。预计是最齐的1家吧，连阿里云皆不这样多，后绝再道阿里云。

下面示例中是索取文原内乱容，要晓得索取文献后的内乱容大概十分年夜，譬如1原书，皆几10万字到几百万字，如许去归跟年夜模子接互，那个本钱预计果然是要命。

为领会绝那个题目，Kimi也算是很知心了，她跟尔们供应了context cache，高低文慢存技能效劳：

Context Caching （高低文慢存）是1种下效的数据办理技能，它批准体系事后保存那些大概会被一再仰求的洪量数据或者疑息。如许，当您再次乞求相反疑息时，体系能够曲交从慢存中倏地供给，而无需从头谋略或者从本初数据源中检索，进而俭省时期战资本。应用 Context Caching 时，起首须要经由过程 API 制造慢存，指定要保存的数据范例战内乱容，而后扶植1个合意的逾期功夫以保留数据的无效性。一朝慢存创制杀青，所有对于该数据的乞求城市起首查抄慢存，若是慢存无效，则曲交应用慢存（此时已慢存的内乱容将没有再支与 Tokens 用度），不然须要从头死成并革新慢存。这类办法出格实用于须要处置洪量反复要求的运用步伐，能够昭著提升呼应快度战体系本能。

Context Caching 出格恰当于用频仍乞求，反复援用大宗始初高低文的环境，经由过程沉用已慢存的内乱容，能够昭著进步服从并落矮用度。原因那个效用具备猛烈的营业属性，尔们底下复杂枚举少少适当的营业场景：

正在体系提醒词 system prompt 中供应洪量预设内乱容的问问机械人，比方 Kimi API 小帮脚；针对于牢固的文档聚拢的一再盘问，比方对于公约停止多维度的稽察任务；刹时淌量宏大的爆款 AI 运用，比方哄哄模仿器，LLM Riddles；

那个效用美是佳，正在尔盗喜之余，翻瞅了她的计费体例，瞧完让尔年夜吃1惊：

文档及第了1个计费的案例：譬如10K文档内乱容，保存了2小时的慢存，总破费6元群众币，那个例子她借不算上年夜模子输出输入的token启销。底下是cache计费划定规矩：

那个计价包括了期间维度，那个有面女让人蒙没有清楚，常常1个数字人曲播挂上12小时，那时代cache 向来正在用，假设某商户上传了几百万的文档，预计1黑夜的启销脚以让人家倒闭了，那谁借敢用啊？

除那个计费题目，她另有许多限定，例如：

1. 单个用户最多只可上传 1000 个文献，单文献没有超越 100MB，共时全部已上传的文献总战没有超越 10G 容量。超越了，您得本身简略。

2 每一个cache 年夜小限定128k。

3 并收拜候限定，包括了拜候限快，token限快等，跟乏积充值金额相关，固然充值额度没有年夜，然则限定很恶心。

4 其余等等。。

阿里云也有1个近似的cache context效用，思绪好没有多，不过计费没有共，它不包含功夫维度：

美了，那篇作品重要重视当地学问库的计费题目，瞅了几家效劳商，尔们也许内心稀有了，学问库创制起去简单，应用起像割肉?。更加是大宗文档接互的场景，因而对于价钱敏锐的人们，能够不必思量年夜厂API了，起码历久去观，没有应当如许依靠。

另有1种折中的计划，当地学问库要创立当地索引，不然果然会让您崩溃。这类规划，尔们后绝再道，敬请存眷。

上一篇：从AI搜索开始到AI信息官，我们只想实现一个事情…

下一篇：通过语义压缩文本降低LLM成本

【返回列表页】

快速导航

友情链接

百度搜索

联系方式

地址：沈阳市汉和大厦B座金城国际大厦
电话：400-963-5896
网址：http://www.zhichtech.com
邮箱：info@zhichtech.com

深圳市致创科技有限公司