根据报道,谷歌计划在12月预览其大型人工智能模型“Project Jarvis”。该模型旨在帮助用户执行各种任务,例如收集信息、购买产品或预订航班。据报道,“Jarvis”将由未来版本的谷歌Gemini驱动,并针对Chrome浏览器进行了优化。
据知情人士透露,“Jarvis”将通过截取屏幕截图、解析内容并自动点击按钮或输入文本来帮助用户自动化日常网页任务。然而,目前该工具在执行不同操作时存在几秒钟的间隔时间。
值得一提的是,大型AI公司都在研发类似功能的模型。微软的Copilot Vision可以与用户进行网页浏览方面的讨论;苹果的Apple Intelligence预计将在明年具备跨多个应用程序的屏幕识别能力;Anthropic刚推出的 Claude测试版已在计算机上实现了操作;而OpenAI也在开发类似功能。
关于谷歌展示“Jarvis”的计划可能会有所变动,并且预计将首先向少量测试者发布,以帮助公司修复潜在问题。
评论