《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 業(yè)界動態(tài) > Kimi首發(fā)“上下文緩存”技術(shù)

Kimi首發(fā)“上下文緩存”技術(shù)

助推長文本大模型降本90%
2024-07-02
來源:月之暗面
關(guān)鍵詞: 月之暗面 Kimi

       近日,月之暗面宣布 Kimi 開放平臺正式公測新技術(shù)——上下文緩存(Context Caching),該技術(shù)在 API 價格不變的前提下,可為開發(fā)者降低最高 90% 的長文本大模型使用成本,并且顯著提升模型的響應(yīng)速度。

       據(jù)了解,月之暗面是國內(nèi)首家面向開發(fā)者推出上下文緩存(Context Caching)技術(shù)的大模型公司。

1.jpg

      上下文緩存(Context Caching)技術(shù)的基本原理是,系統(tǒng)預(yù)先存儲那些可能會被頻繁請求的大量數(shù)據(jù)或信息。這樣,當(dāng)用戶再次請求相同信息時,系統(tǒng)可以直接從緩存中快速提供,而無需重新計算或從原始數(shù)據(jù)源中檢索,從而節(jié)省時間和資源。

       上下文緩存(Context Caching)技術(shù)可以帶來降本和提速兩大價值。首先,通過緩存重復(fù)性輸入的大量數(shù)據(jù),對于公共上下文僅收取一次費用,上下文緩存(Context Caching)技術(shù)大大降低了開發(fā)者使用長文本旗艦大模型的成本,最高可降本達(dá) 90%。其次,上下文緩存(Context Caching)技術(shù)還有助于提升大模型API的響應(yīng)速度,實測可將 128K 長文本大模型的首 token 延遲降低 83% 左右,從平均 30 秒左右降低到平均 5 秒內(nèi)。

       在長上下文和高負(fù)載的業(yè)務(wù)場景上,上下文緩存帶來的降本和提速效果尤為顯著。常見場景包括提供大量預(yù)設(shè)內(nèi)容的問答機器人,例如 Kimi API 小助手;針對固定的文檔集合的頻繁查詢,例如上市公司信息披露問答工具;對靜態(tài)代碼庫或知識庫的周期性分析,例如各類 Copilot Agent;瞬時流量巨大的爆款 AI 應(yīng)用,例如哄哄模擬器;交互規(guī)則復(fù)雜的 Agent 類應(yīng)用,例如什么值得買的 Kimi+ 等。

       以常見的固定文檔大量提問場景為例。某硬件產(chǎn)品說明書大概 9萬字,換算 Tokens 長度大概 64K,該產(chǎn)品售前支持人員需要在 10 分鐘內(nèi),密集對產(chǎn)品的功能/使用方式進行 40 次問答,每次的問題大概 100 個字,要求模型的輸出需要基于產(chǎn)品說明書來回答,回答問題在 120 字以內(nèi)。

2.jpg

       按照大模型問答的 Tokens 計算邏輯,售前支持人員需要每次向模型輸入的 Tokens =文檔 Tokens +問題 Tokens,10 分鐘內(nèi) 40 次的問答共計需要消耗 Tokens 2.56 M,128k 模型價格為 60元/M,預(yù)計原始花費需要 153.84 元。若該場景接入上下文緩存(Context Caching)技術(shù):9萬字的文檔只收取一次創(chuàng)建 Cache 和存儲 10 分鐘 Cache 的費用,10分鐘內(nèi)的40次提問,將只收取問題的 100 字+ 回答的 120 字的費用,預(yù)計花費 11.88 元。節(jié)省了 141.95 元,相當(dāng)于費用降低 90% 左右。

       響應(yīng)速度方面,以 128k 模型的一次4萬字(約 30k tokens)的推理請求為例。通常向模型提問,平均要 30 秒返回首 Token。接入上下文緩存技術(shù)后,最快可 1 秒內(nèi)完成首 Token 返回。經(jīng)過大量測試,接入上下文緩存功能后,128k 模型的首 Token 延遲平均可降至 5 秒內(nèi),降低了 83%左右。

3.jpg

       需要注意的是,上述測試效果基于 1 token = 1~1.5個文字和字符,使用 128k 模型進行測算。具體的效果根據(jù)業(yè)務(wù)情況/模型選擇不同,會有略微差別。

       上下文緩存(Context Caching)技術(shù)在公測期間將首先提供給 Kimi 開放平臺的 Tier5 等級開發(fā)者,后續(xù)陸續(xù)增大開發(fā)者公開測試范圍。

       Kimi 大模型目前已接入了釘釘、扣子等平臺,用戶或開發(fā)者可以在這些平臺選用 Kimi 大模型,借助出色的長文本和指令遵循能力搭建個性化的智能體應(yīng)用。Kimi 開放平臺的開發(fā)者注冊量自從今年 2 月份以來復(fù)合增長率超過 175%,在投研服務(wù)、法律盡調(diào)、企業(yè)知識庫問答、輔助軟件開發(fā)等場景獲得廣泛應(yīng)用。近期,Kimi 開放平臺陸續(xù)上線了工具調(diào)用(Tool Use)、Partial Mode、上下文緩存(Context Caching)等能力,持續(xù)幫助開發(fā)者高效打造更有想象力的AI 應(yīng)用。

訂閱網(wǎng)站文章尾圖1.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 亚洲精品欧美精品国产精品| 国产一区二区三区播放| aaaaaav| 成人午夜福利视频镇东影视| 国产成人亚洲精品蜜芽影院| 97碰公开在线观看免费视频| 小东西怎么流这么多水怎么办| 久久久久亚洲AV成人片| 日韩美女va毛片在线播放| 亚洲国产高清视频在线观看| 浪小辉chinese野战做受| 免费网站看v片在线成人国产系列| 色吊丝av中文字幕| 国内精品18videosex性欧美| xyx性爽欧美| 小雄和三个护士阅读| 中文字幕国产视频| 日日躁夜夜躁狠狠天天| 久久综合色天天久久综合图片| 欧美乱大交xxxx| 亚洲成人黄色在线观看| 欧美黑人xxxx又粗又长| 亚洲色婷婷一区二区三区 | 少妇被躁爽到高潮无码人狍大战 | 日本永久免费a∨在线视频| 久久精品青草社区| 暖暖在线日本免费中文| 亚洲AV成人无码天堂| 极品少妇伦理一区二区| 亚洲一区二区三区深夜天堂| 欧美国产激情18| 亚洲免费视频网址| 欧美人与动性xxxxx杂性| 亚洲女成人图区| 美女扒开尿口给男人看的让 | 日本乱人伦aⅴ精品| 久久亚洲综合色| 日本三级韩国三级三级a级播放 | 中文字幕亚洲综合久久综合| 我把小yi子cao了小说| 中文字幕校园春色|