Arm正在与Meta公司的PyTorch团队携手合作,共同推进新的ExecuTorch测试版(Beta)上线,旨在为全球数十亿边缘侧设备和数百万开发者提供人工智能(AI)和机器学习(ML)功能,进而确保AI真正的潜力能被最广泛的设备和开发者所使用。
借助ExecuTorch和新的Llama量化模型,Arm计算平台优化生成式AI性能
Arm计算平台无处不在,为全球众多边缘侧设备提供支持,而ExecuTorch则是专为移动和边缘侧设备部署AI模型而设计的PyTorch原生部署框架。两者的紧密合作,使开发者能够赋能更小、更优化的模型,包括新的Llama 3.2 1B 和3B量化模型。这些新模型可以减少内存占用、提高准确性、增强性能和提供可移植性,成为小型设备上的生成式AI应用的理想选择,如虚拟聊天机器人、文本摘要和AI 助手。
开发者无需额外的修改或优化,便可将新的量化模型无缝集成到应用中,从而节省时间和资源。如此一来,他们能够迅速在广泛的Arm设备上大规模开发和部署更多的智能AI 应用。
随着Llama 3.2大语言模型(LLM)新版本的发布,Arm正在通过ExecuTorch框架优化AI性能,使得在Arm计算平台边缘设备运行的真实生成式AI工作负载能更为快速。在ExecuTorch测试版发布的首日起,开发者便能享有这些性能的提升。
集成KleidiAI,加速端侧生成式AI的实现
在移动领域,Arm与ExecuTorch的合作意味着众多生成式AI应用,如虚拟聊天机器人、文本生成和摘要、实时语音和虚拟助手等,完全能够在搭载Arm CPU的设备上以更高的性能运行。这一成果得益于KleidiAI,它引入了针对4位量化优化的微内核,并通过XNNPACK集成到了ExecuTorch中,因此,在Arm计算平台上运行4 位量化的LLM时,无缝加速AI工作负载的执行。例如,通过KleidiAI的集成,Llama 3.2 1B 量化模型预填充阶段的执行速度可以提高20%,使得一些基于Arm架构的移动设备上的文本生成速度超过了每秒400 个词元(token)。这意味着,终端用户将从他们移动设备上获得更快速、响应更灵敏的AI 体验。
为物联网的边缘侧AI应用加速实时处理能力
在物联网领域,ExecuTorch将提高边缘侧AI应用的实时处理能力,包括智能家电、可穿戴设备以及自动零售系统等。这意味着物联网设备和应用能够以毫秒级的速度响应环境变化,这对保障安全性和功能可用性至关重要。
ExecuTorch可在Arm Cortex-A CPU 和Ethos-UNPU 上运行,以加速边缘侧AI应用的开发和部署。事实上,通过将ExecuTorch与 Arm Corstone-320 参考平台(也可作为仿真固定虚拟平台(FVP)使用)、Arm Ethos-U85 NPU驱动程序和编译器支持集成到一个软件包中,开发者可在平台上市前几个月就着手开发边缘侧AI 应用。
更易获取、更快捷的边缘侧AI开发体验
ExecuTorch有潜力成为全球最受欢迎的高效AI 和ML开发框架之一。通过将应用最广泛的Arm计算平台与ExecuTorch相结合,Arm正在通过新的量化模型加速AI的普及,让开发者能够更快地在更多设备上部署应用,并将更多生成式AI体验引入边缘侧。
评论