讯飞星火大模型升级:74个语种方言“自由对话”,破解强干扰场景语音识别难题

科技 2024-06-28 17:22 阅读:

6月27日,科大讯飞在北京发布讯飞星火大模型V4.0及相关落地应用。

自去年9月全面开放以来,讯飞星火APP在安卓公开市场累计下载量达1.31亿次。此次升级后的讯飞星火V4.0 七大核心能力全面升级,全面对标GPT-4 Turbo,并实现在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面的整体超越。

讯飞星火大模型升级:74个语种方言“自由对话”,破解强干扰场景语音识别难题 第1张

现场,科大讯飞董事长刘庆峰展示了讯飞星火V4.0在复杂指令、复杂逻辑推理、空间推理、高中数学等方面的效果,星火“智商”再度进化。以空间推理为例,“Bob在客厅里。他拿着一个杯子走到厨房。他把球放进杯子里,然后拿着杯子走到卧室。他把杯子倒过来,然后走到花园。他把杯子放在花园里,然后走到车库。问题:球在什么地方?”讯飞星火可以基于空间和常识推断出球在卧室的地面上,这些能力的进步对于以后的具身智能、家庭机器人都具有意义。

近期科大讯飞作为第一完成单位的《多语种智能语音关键技术及产业化》项目,获得国家科学技术进步奖一等奖。此次星火语音大模型迎来新突破。星火语音大模型发布国际领先的多语种多方言免切换语音识别能力,可支持37个语种、37种方言“自由对话”。其中,37个语种识别效果领先OpenAI whisper-V3,37个方言识别效果平均提升30%。现场,科大讯飞演示了讯飞输入法混合方言和外语的语音输入效果,能让输入效率大大提高。

科大讯飞还发布了软硬件一体化讯飞同传系统,可支持大会同传、会议同传、展厅同传、旅游同传等多场景使用。本次参会的嘉宾座位上同样配备讯飞同传的收听设备,佩戴后即可实时收听多语种AI同声传译。

针对强干扰场景下的语音识别难题,科大讯飞突破了多人混叠场景下的极复杂场景语音转写,即使在三人混叠说话场景也能实现86%的语音识别准确率。三位讯飞研究院的研究员现场实测了在噪音场景下,同时混叠着说话,正常人耳已难以听清,只见讯飞星火的多模态能力不但实现了三人重叠语音的角色分离,还能实时转写出每个人说的话。未来基于多模态的声音识别技术,将应用在讯飞听见智慧办公、智慧屏等会议办公产品中。

自去年5月6日发布以来,讯飞星火大模型正成为国家能源集团、中国石油、中国移动、中国人保、太平洋保险、交通银行、奇瑞汽车、中国一汽、大众汽车、江汽集团、海尔集团、美的集团等多领域头部企业的首选。

讯飞星火已经在代码、合规审查、客服、评标、智能交互等多个典型场景产生应用成效,以交通银行为例,基于星火大模型能力的产品iFlyCode覆盖6000+研发人员,代码采纳率达38%,工作效率显著提升。

讯飞星火大模型升级:74个语种方言“自由对话”,破解强干扰场景语音识别难题 第2张

此次星火企业智能体平台正式发布。在代码智能体iFlyCode中,它集成了代码生成助手、架构设计助手、代码问答助手、测试助手、数据库优化助手、代码审核助手等六大场景智能体,将采纳率由30%提升至52%。

星火商机助手可以实现商机线索应知尽知、客户拜访提质增效、销售管理智能研判,助力一线销售和商机管理效能提升。星火评标助手通过标前寻源、智能评标、定标审核等功能,智能评标结果人机一致率达98%,投标异常检出率超过80%,在大幅提升企业评标效率同时降低采购成本。

文/北京青年报记者 温婧

编辑/田野