在今天的火山引擎Force大会上,字节跳动公司正式发布了豆包视觉理解模型,为企业提供了多模态大模型的能力。豆包视觉理解模型具有千个输入令牌的价格仅为3元,它可以处理284张720P的图片,官方声称比行业价格便宜85%。
此外,豆包还推出了3D生成模型。与火山引擎数字孪生平台veOmniverse相结合,可以完成智能训练、数据合成和数字资产制作等功能。官方称之为“一套支持AIGC创作的物理世界仿真模拟器”。
豆包大模型旗下多款产品也迎来了更新:豆包通用模型Pro全面对标GPT-4o,使用价格仅为后者的1/8;音乐模型可生成3分钟的完整作品;文生图模型2.1版本实现了精准生成汉字和一句话P图,并已经接入即梦AI和豆包App。
值得关注的是,在未来春季推出具备更长视频生成能力的豆包视频生成模型1.5版,并且即将上线具备实时语音能力的豆包端到端实时语音模型,从而解锁多角色演绎、方言转换等新功能。
评论