大语言模型综合性能评估报告：百度文心一言中文理解能力超越ChatGPT-中关村在线

大语言模型综合性能评估报告：百度文心一言中文理解能力超越ChatGPT

薄荷糖的夏天

原创

2023-08-10

近日，由清华大学新闻与传播学院教授、博士生导师沈阳团队发布的《大语言模型综合性能评估报告》显示，GPT-4在总得分率上排名第一，而百度的文心一言在20项指标的综合评分中位居国内首位，超越了ChatGPT，尤其在中文语义理解方面排名第一，部分中文能力甚至超越了GPT-4。该报告选取了GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工等7个大语言模型，从生成质量、使用与性能、安全与合规三大维度进行全面考察，包括上下文理解、中文语义理解、误导信息识别、逻辑推理、内容安全性、隐私保护等20项指标。综合来看，文心一言在语义理解能力上表现突出，尤其在中文理解能力上具备优势，更懂中国文化，同时具有强大的时效性和对内容安全的细致把握，这得益于其在知识增强、检索增强和对话增强等方面的技术创新。在生成质量方面，文心一言在语义理解、输出表达、适应泛化的综合评测中得分率为76.98%，仅次于GPT-4，领先于包括ChatGPT在内的其他大语言模型。在部分中文语义理解方面，文心一言以92%的得分率排名榜首。在安全合规方面，文心一言在内容安全性、偏见和公平性、隐私保护等方面的综合评测中得分率为78.18%，与GPT-4并列排名第一。

展开全文

大语言模型综合性能评估报告：百度文心一言中文理解能力超越ChatGPT

vivo X100 Ultra(12GB/256GB)

vivo X200 Pro(12GB/256GB)

HUAWEI Mate 60（12GB/256GB）

iQOO Z9 Turbo+(12GB/256GB)

Redmi K70至尊版(12GB/256GB)

字节跳动将把TikTok总部迁至伦敦 英国政府开绿灯

清华大学生起诉ofo反赔400元，这到底是怎么回事呢？

互联网免费时代终结 全面付费用户被套路

英法德未跟风封禁TikTok 英国甚至对其大开绿灯

早报：华为开发者大会9月举行 三星中国工厂关闭

华为nova 13系列手机四款配色海报公布：洛登绿 / 羽砂紫 / 羽砂白 / 星耀黑

小米智能手环9 Active被曝下月发布：1.47 英寸屏幕、续航 18 天

曝一加小直屏新机已开案 6.1-6.3英寸

三星 Galaxy S25 / Ultra 保护膜曝光，新机已通过国内认证

微软中止推Win11 24H2更新 网友称安装后系统就陷入瘫痪状态

华为Mate 70即将上市 iPhone 16再便宜也别买

Win11精简版上线 附下载链接 4.9GB容量干净好用

下载Win11官方精简版 2024 LTSC 版本发布

OPPO Find X8 Pro外观设计曝光：真机非常精致

Win11 精简版来了！不只有edge！

小姐姐太美啦 俄罗斯年轻女性Cos艾达王

华为nova 13全配色公布 辨识度超高

华为商城上架HUAWEI Sound X4智能音箱：韵律黑1999 元，悦动白2399元

全景光透声学箱体 漫步者HECATE G3000桌面音箱正式开售

福特购买小米SU7去美国：CEO开了六个月不想换

田园夏色

充电宝押金什么时候退

AMD官方确认史上最强APU 性能媲美移动版RTX 4070

小米新品今晚开售：2999元，配备双机械臂

首发骁龙8 Elite！小米15系列开启预定

手机秀光影（南德田园风光）

Word禁用宏、Excel禁用宏设置方法，关闭宏在哪里设置方法？

64岁老戏骨车保罗扮演的《黑神话：悟空》老猴子太形象了

骁龙8 Gen 4成史上最贵手机SoC：单颗成本暴涨超1200元

天猫官方公布双11爆款降价清单：来抄作业啦

除了ipad，还有其他性能不错的平板电脑吗？

何为单反相机

吉利首款“轻越野 SUV”曝光：车身尺寸大 车顶行李架设计独特

Mini LED电视大火：销量暴涨近5倍 小米功不可没

22.8万元起!长城灵魂摩托车即将开售：外观太酷了

h3c路由器密码破解

三星Galaxy S25 Ultra配色细节曝光：黑色蓝色绿色钛色

泰山惊现会背负重物行走的“机器狗”，网友：这是要抢工作？

AM4接口八年了还在更新！AMD将推出2款锐龙5000新品

最新笔记本独立显卡排名

iPhone 16全系官方降价，最高优惠达1600元

iPhone 17 Slim将成史上最薄苹果手机

华为Mate 60仅需3999？Mate 70真要来了

怎样和电脑连接

一加13外观定了！虞书欣等三位明星已喜提真机

功耗600W！体积又大了？疑似RTX 5090谍照曝光

vivo X200系列销售额破突20亿：多平台安卓机销冠

电水壶功率一般有多大，烧水壶多少W？

华为鸿蒙推送 HarmonyOS NEXT.0.0.72 版本，新增一键锁屏服务卡片等功能

苹果iPhone 16开箱即用遇到大Bug！ 解锁后直接崩溃重启

真我GT7 Pro上架：骁龙8至尊＋6500mAh＋120W充电

为什么感觉苹果iPhone 11还有很多人去买？

小米15将首发骁龙8至尊版！发布会准备中

荣耀 Magic7 手机“月影灰”配色亮相：居中对称摄像头、直角边框设计

699元起！京东京造《黑神话：悟空》联名款机械键盘开预约

华为Mate 20 X 5G版和普通版有什么区别？

小米发布智能台灯Pro：定制全光谱LED灯珠，售价386元

小米新款手表通过3C认证，支持eSIM通信

雷军转发“车主自制小米SU7广告”：你可以接商单了

iqoo7电池多大？vivo iQOO手机电池容量？

HiFi价格天花板 98元入耳式耳机竟搭无氧铜线材

荣耀手表5上线海外官网：1.85英寸AMOLED方屏 续航可达15天

《魔兽世界》国服成功登顶！十年来最高峰来了

vivo X100 Ultra(12GB/256GB)

vivo X200 Pro(12GB/256GB)

HUAWEI Mate 60（12GB/256GB）

iQOO Z9 Turbo+(12GB/256GB)

Redmi K70至尊版(12GB/256GB)

华为Mate XT 非凡大师(16GB/512GB)

小米14(8GB/256GB)

苹果iPhone 16（128GB）

荣耀X50（8GB/128GB）

更多频道

{{title}}

字节跳动将把TikTok总部迁至伦敦英国政府开绿灯

互联网免费时代终结全面付费用户被套路

早报：华为开发者大会9月举行三星中国工厂关闭

微软中止推Win11 24H2更新网友称安装后系统就陷入瘫痪状态

Win11精简版上线附下载链接 4.9GB容量干净好用

小姐姐太美啦俄罗斯年轻女性Cos艾达王

华为nova 13全配色公布辨识度超高

全景光透声学箱体漫步者HECATE G3000桌面音箱正式开售

吉利首款“轻越野 SUV”曝光：车身尺寸大车顶行李架设计独特

Mini LED电视大火：销量暴涨近5倍小米功不可没

苹果iPhone 16开箱即用遇到大Bug！解锁后直接崩溃重启

荣耀手表5上线海外官网：1.85英寸AMOLED方屏续航可达15天