香港特区立法会与科大讯飞联合研发了一套智能语音识别系统“智识听”,用于提升会议记录的效率与准确性。该系统具备实时字幕功能,能够结合中英粤三语混合识别引擎,并融合声纹识别与字幕同步技术,使会议直播中的文字与视频画面实现同步展示,方便公众实时获取政策信息。
“智识听”在开发过程中,通过对约2.5亿字的双语语料、400小时音频资料以及20万条具有香港特色的词汇进行深度学习训练,具备了识别多种口音、新兴地名及中英粤混合发言的能力。即使面对议员的特殊发音或复杂专有名词,系统也能迅速适应并准确处理。目前,系统生成的实时字幕准确率可达96%,若配合后台人员实时校对,整体准确率可提升至99%。
该系统的研发历时近三年,分为三个主要阶段推进。1.0版本实现录音转文字功能,2.0版本加入实时语音转写能力,3.0版本则实现了实时字幕的生成。为了提升粤语俚语、法律术语以及中英粤混杂语句的识别效果,立法会秘书处专门整理了超过2.5亿字的对照语料和20万个高频粤语词汇作为训练数据。经过持续优化,系统在会议直播中的表现已达到较高水平。
在引入“智识听”后,议事记录的发布周期明显缩短,由原先的七天缩短至会议结束后的次日即可发布。当前,系统正筹备第四期开发,重点将放在英文及多语种字幕系统的建设上。同时,依托于大模型技术的进步,香港立法会也在同步推进智慧办公系统的规划与部署。

评论
更多评论