中关村在线

热点资讯

大模型推理架构Mooncake开源

中关村在线11月28日消息,月之暗面Kimi和清华大学MADSys实验室联合9#AISoft阿里云、华为存储、面壁智能、趋境科技等产学研力量共同发布开源项目Mooncake,共建以KVCache为中心的大模型推理架

据悉,Mooncake技术框架今日已正式开源上线。

资料显示,Mooncake是Kimi的服务平台,Kimi是月之暗面公司提供的一项LLM服务。它采用以K-V Cache为中心的分解式架构,将预填充和解码cluster分开。它还利用GPU cluster中未充分利用的CPU、DRAM和SSD资源来实现K-V Cache的分解式缓存。

Mooncake的核心是以K-V Cache为中心的调度程序,在最大化整体有效吞吐量和满足与延迟相关的服务级目标(SLO)之间取得平衡。

与假设所有请求都将被处理的传统研究不同,Mooncake面临着高度超载场景带来的挑战。为了缓解这些问题,开发一种基于预测的早期放弃(early rejection)策略。实验表明,Mooncake在长上下文场景中表现出色。

月之暗面相信,通过与产学研机构的开源合作,可以推动整个行业向更高效的推理平台方向发展,并邀请更多企业和研究机构加入Mooncake项目共建,共同探索更高效和先进的模型推理系统架构创新,让基于大模型技术的AI助手等产品惠及更广泛人群。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多

内容相关产品

说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具