近日,科技巨头苹果公司发布了其多模态AI大模型MM1.5的最新版本。这款强大的人工智能工具在继承前代MM1的基础上,增加了300亿参数。通过改进数据混合策略,MM1.5能够更好地理解和处理图像、文本以及用户交互等多模态信息。
与之前的版本相比,MM1.5提供了更大的参数规模,并具备了图像识别和自然语言推理能力。同时,在持续预训练阶段引入了高质量OCR数据和合成图像描述,进一步提升了对包含大量文本的图像的理解水平。
此外,在监督式微调阶段,研究人员深入分析了不同数据类型对模型表现的作用,并优化了视觉指令微调数据的混合方式。这使得即使是小规模的模型(如10亿、30亿参数版本)也能有出色的表现,并实现更高的效率。
值得一提的是,苹果公司还推出了专门用于视频理解的MM1.5-Video模型和处理移动设备UI理解的MM1.5-UI模型。其中,MM1.5-UI模型未来有望成为iOS背后的“苹果牌”AI,能够处理各种视觉引用与定位任务,并通过与用户的对话进行交互。
尽管MM1.5在多项基准测试中表现出色,但苹果团队仍计划进一步融合文本、图像和用户交互数据,并设计更复杂的架构来提升模型对移动设备UI的理解能力。这将使“苹果牌”AI更加强大可靠。
总体来说,苹果公司的最新大模型MM1.5为用户带来了前所未有的人工智能体验,无论是图像识别、自然语言理解还是多模态处理都得到了显著提高。随着技术不断发展,我们可以期待更多令人惊叹的产品和服务问世。
评论