根据内部通信内容,谷歌的Gemini人工智能模型的承包商正在将其答案与 Anthropic 的竞品模型Claude的输出进行比较。此举引发了对于谷歌是否获得Anthropic授权使用Claude进行测试的合规性质疑。
在科技公司竞相开发更优秀AI模型的背景下,通常会通过行业基准测试来评估模型性能,而非由承包商耗费大量精力评估竞争对手的AI回复。然而,Gemini的承包商需要根据多个标准(例如真实性和冗长性)对每个回复进行评分。根据TechCrunch获得的通信内容,承包商最多有30分钟的时间来判断 Gemini 或 Claude 的答案哪个更好。
内部聊天记录显示,承包商注意到Claude的回复似乎更强调安全性。一位承包商写道:“在所有 AI 模型中,Claude 的安全设置是最严格的。”在某些情况下,Claude不会回应其认为不安全的提示词(prompt),例如扮演不同的AI助手。在另一次测试中,Claude避免回答某个提示词,而Gemini的回复因包含“裸体和束缚”而被标记为“严重的安全违规”。
根据 Anthropic 的商业服务条款禁止客户未经Anthropic批准访问Claude"以构建竞争产品或服务"或"训练竞争AI模型"。谷歌是Anthropic的主要投资者。
对此,谷歌DeepMind(负责Gemini)发言人在一份声明中表示,“确实会‘比较模型输出’进行评估”,但并未在Anthropic模型上训练Gemini。“任何关于我们使用Anthropic模型训练Gemini的说法都是不准确的。”
评论