继今年4月推出Llama 3之后,Meta于7月24日正式发布了其功能更强大的AI大模型Llama 3.1。Llama 3.1涵盖多个不同规模及功能的全新模型,其中包括目前可获取的、最大的开放基础模型—— Llama 3.1 405B(4050亿参数)。Meta表示,作为目前最优秀和最大的开源基础模型(foundation models,FMs)之一, Llama 3.1 405B为生成式AI能力设立了新标准。它特别适用于合成数据生成和模型蒸馏,这能在后续训练中提升较小尺寸Llama模型的性能。同时Llama 3.1 405B还在通用知识、数学、工具使用和多语言翻译方面有出色的表现。
得益于大幅增加的训练数据和规模,所有新的Llama 3.1模型相比之前的版本都有明显改进。这些模型支持128K的上下文长度,相较于Llama3增加了12万个标记(Token),模型容量是上一版本的16倍,并提升了在以下八种语言对话场景中的推理能力,即英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
Llama 3.1模型还增强对语言细微差别的理解能力,即能更好地理解上下文,并能更有效地处理复杂问题。该模型还可以从长篇文本中获取更多信息,以做出更明智的决策,并利用更丰富的上下文数据生成更加细致和凝练的回应。
就在Llama 3.1发布的当天,英特尔就宣布公司横跨数据中心、边缘以及客户端AI产品已面向Meta最新推出的大语言模型(LLM)Llama 3.1进行了优化,并公布了一系列性能数据。英特尔表示,目前其丰富的AI产品组合已支持上述最新模型,并通过开放生态系统软件实现了针对性优化,涵盖PyTorch及英特尔PyTorch扩展包(Intel Extension for PyTorch)、DeepSpeed、Hugging Face Optimum库和vLLM等。此外,企业AI开放平台(OPEA)亦为这些模型提供支持。作为由LFAI & Data基金会发起的全新开放平台项目,OPEA旨在聚合生态之力,推动创新,构建开放、多供应商的、强大且可组合的生成式AI解决方案。
根据英特尔的官方数据,包括英特尔至强处理器、搭载英特尔酷睿Ultra处理器和英特尔锐炫显卡的AI PC产品都实现了对Llama 3.1的优化支持。
首先是英特尔至强处理器。作为通用计算的基石,英特尔至强处理器为全球用户提供了强大算力,目前第五代至强可扩展处理器已通过各大云服务商面市,至强6能效核处理器也于今年6月份在中国正式发布。英特尔至强处理器在其每个核心中均内置了英特尔高级矩阵扩展(AMX)AI引擎,可将AI性能提升至新水平。根据基准测试,在第五代英特尔至强平台上以1K token输入和128 token输出运行80亿参数的Llama 3.1模型,可以达到每秒176 token的吞吐量,同时保持下一个token延迟小于50毫秒。下图展示了运行支持128k长文本的80亿参数Llama 3.1模型时,下一个token延迟可低于100毫秒。
基于第五代英特尔至强可扩展处理器的Llama 3.1推理延迟
由英特尔酷睿Ultra处理器和英特尔锐炫显卡驱动的AI PC则能为客户端和边缘提供卓越的设备端AI推理能力。凭借诸如英特尔酷睿平台上的NPU,以及锐炫显卡上英特尔Xe Matrix Extensions加速等专用的AI硬件,在AI PC上进行轻量级微调和应用定制比以往更加容易。对于本地研发,PyTorch及英特尔PyTorch扩展包等开放生态系统框架可帮助加速。而对于应用部署,用户则可使用英特尔OpenVINO工具包在AI PC上进行高效的模型部署和推理。AI工作负载可无缝部署于CPU、GPU以及NPU上,同时实现性能优化。
在配备内置英特尔锐炫显卡的英特尔酷睿Ultra 7 165H AI PC上,Llama 3.1推理的下一个token延迟
在使用英特尔锐炫A770 16GB限量版显卡的AI PC上,Llama 3.1推理的下一个token延迟
现如今,诸多企业都拥有规模庞大的历史数据,这些数据通常被视作企业的私有财产,因此无法被大模型直接访问,对这些企业而言,部署生成式AI解决方案会带来诸如成本、规模、准确性、开发需求、隐私和可靠性等方面的挑战。作为一种关键的生成式AI工作负载,RAG可以让企业安全地利用专有数据,增强AI产出结果的及时性与可靠性。
为了进一步加快RAG技术部署,推动生成式AI解决方案快速落地,英特尔与行业合作伙伴共同创建了开源、可互操作的解决方案。基于企业AI开放平台(OPEA),该方案是一种以行业需求为导向、开箱即用,且可立即投产的RAG解决方案。该生成式AI一站式解决方案在助力企业便捷地部署数据中心RAG的同时,具备高度的灵活性和可定制性,并集成了多个OEM系统及行业合作伙伴的产品组件。
作为OPEA的发起成员之一,英特尔正帮助引领行业为企业AI打造开放的生态系统,同时,OPEA亦助力Llama 3.1模型实现性能优化。
基于可组合且可配置的多方合作组件,OPEA为企业提供开源、标准化、模块化以及异构的RAG流水线(pipeline)。此次测试中,微服务部署于OPEA蓝图的每一支细分领域中,包括防护(Guardrail)、嵌入(Embedding)、大模型、数据提取及检索。端到端RAG流水线通过Llama 3.1进行大模型的推理及防护,使用BAAI/bge-base-en-v1.5模型进行嵌入,基于Redis向量数据库,并通过Kubernetes(K8s)系统进行编排。
基于Llama 3.1的端到端RAG流水线,由英特尔Gaudi 2加速器和至强处理器提供支持
目前,英特尔AI PC及数据中心AI产品组合和解决方案已面向全新Llama 3.1模型实现优化,OPEA亦在基于英特尔至强等产品上全面启用。未来,英特尔将持续投入软件优化,支持更多全新的模型与用例。
评论