来源:2020-05-11 | 人围观
AI实时翻译早已走出科幻电影。
在2019年上映的国产科幻电影《流浪地球》中,一段剧情令许多AI从业者为之振奋。
在AI实时翻译耳机的助力下,吴京饰演的中国航天员刘培强可以用母语与片中的俄罗斯航天员进行对话。当今人类面临的语言藩篱,在科幻世界中的AI面前不值一提。
在西方传说中,人类曾试图修建一座通往天堂的高塔——“巴别塔”。上 帝为了阻止人类,让人类拥有了不同的语言。语言隔阂最终让巴别塔计划夭折。如今,AI实时翻译技术的出现,终于让人类有希望重建巴别塔。
4月27日,持续两天三晚的GMIC 2020(全球移动互联网大会)圆满闭幕。这是GMIC发起12年来首次采用全程线上直播的方式进行。大会以“幂次生长”为主题,在特殊时期继续践行了“永不落幕的GMIC”这一宗旨。
而在这次大会上,讯飞听见的全程实时中英字幕服务成为了一大亮点。大会所有嘉宾的发言都可以被实时转换为文字,并以中英双语的形式呈现在字幕上。来自全球15个国家和地区的190家企业的230位演讲嘉宾,以及全球4190万人次的观众,都通过这一服务获得了无语言障碍的参会体验。
GMIC大会上的中英字幕
在众多AI技术的助力下,GMIC 2020成为了历史上少有的将全部流程迁移到线上的大型国际展会。GMIC立足国内,实时中文字幕的加入,让中国观众可以更容易理解GMIC大会上嘉宾的演讲内容。与此同时,实时翻译服务也给嘉宾带来了顺畅的交流体验。这套AI翻译服务,打破了不同语言之间的壁垒,成为了新时代的巴别塔。
AI实时字幕成为大型展会标配
在今年的GMIC上,实时字幕及翻译给大会带来了全新的可能性。事实上,从国外的Google I/O,到国内的博鳌亚洲论坛,近年来,一大批顶级国际会议,都引入了基于AI的实时字幕、AI同传产品。这一服务,几乎成为了当下大型展会的标配。
不止在展会行业,国内、国际上的多个顶级节目,也引入了讯飞听见的实时字幕服务。例如,在今年年初的美国金球奖颁奖典礼上,爱奇艺为国内观众进行了全程实况转播。与以往不同,国内观众这一次看到的直播画面,自带实时中英文字幕。
而这一实时中英文字幕服务,正来自于讯飞听见。中文字幕的出现,让中国影迷既能第一时间追到金球奖直播,又能看懂直播内容。
在这一次金球奖颁奖典礼上,韩国电影《寄生虫》获得了最佳外语片奖。《寄生虫》导演奉俊昊也在现场表示,不要因为字幕,让自己错过了新世界。
在金球奖之外,在2019年的苹果秋季新品发布会上,讯飞听见也联合新浪科技等四大平台推出了实时中文字幕,让中国果粉也能第一时间见证iPhone 11的发布。
讯飞听见联合国内平台呈现的
苹果发布会实时字幕
基于AI的实时字幕、翻译,正在成为大型展会的标配。而这些字幕的呈现,则离不开讯飞听见云会展团队的幕后支持。
如今,许多用户在手机上也可以使用语音输入法,获得实时的语音转文字体验。但在声音环境复杂、与会人员众多的大型展会上,实时字幕的呈现却并不容易。
为了解决大型会展现场的语音识别问题,讯飞听见的会展实时字幕服务建立在专业级的工作站上,并配有专业拾音设备及声卡。同时,工作站可以在没有网络的情况下脱机运行,以应对极端情况。
此外,在讯飞听见云展会团队也会根据客户的需求,定制个性化的解决方案。
例如,在2019年的某国内大型展会上,讯飞团队在彩排过程中发现,有一位重量级嘉宾的字幕准确度并不理想。而准确度不佳的原因并不复杂——这位嘉宾演讲时的口音较重,众所周知,如果语音带有口音,AI很难有效识别。
为了提升这位嘉宾的字幕准确度,讯飞团队与展会主办方沟通,获得了这位演讲嘉宾此前多次演讲的语音素材,并以此为样本训练讯飞的语音识别模型。经过定制化的学习,讯飞针对这位嘉宾发言的识别准确度提升了15%。
在口音之外,一些专业会议中经常出现的冷门专业词汇,也会显著降低AI字幕的准确度。针对这种情况,讯飞听见会为每一场专业会议定制专业词汇表,并配备具有专业背景的支持团队,以提升专业场景的识别准确度。
成熟稳定的产品与定制化的客户服务,让讯飞听见积累了一批忠诚的会展类客户。“现在,我们的会展客户,基本可以做到95%的回头率。”讯飞听见会展业务线总监国丽表示。
AI技术落地远程会议
早在2015年12月的发布会上,科大讯飞就推出了面向会议场景的AI语音转写服务,成为了国内第一批探索会议场景语音服务的AI企业。而讯飞听见的品牌也在这时诞生,此后,讯飞听见成为了集成PC端、手机App、智能硬件以及会议、会展服务的综合平台。
而如今,以实时字幕、实时翻译、AI同传为代表的AI语音识别、翻译技术,不仅成为了大型展会上的标配,也在逐渐渗透到我们的日常工作生活之中。
与收听一段语音相比,人类对于文字的感知能力更强。通过文字,人们可以在更短的时间内获取更多信息,提升工作效率。这也是语音转文字产品的核心价值。
因此,讯飞听见也将云展会产品中的实时字幕、实时翻译功能,搭载到了自家的云会议产品中。目前,讯飞听见推出的云会议产品,除了200方视频会议、多端同步等常规功能外,还支持中英双语字幕的实时呈现。
在识别准确度上,讯飞听见官方数据显示,系统针对清晰标准普通话转写准确率可以达到97%以上,针对native英文发音的撰写准确率也可以达到93%以上。
此外,讯飞听见云会议产品也支持会议结束后自动生成会议纪要,将与会人员的发言转换成文字记录,并进行多端同步分享。讯飞听见官方数据显示,目前听见云会议产品已服务数百万人次。
例如,在今年1月的上海市第十五届人民代表大会第三次会议上,讯飞听见的云会议系统就参与其中,帮助人大代表完成了大量会议记录工作。
在以往的人代会上,每位代表都需要两名记录员,进行全天的会议记录、整理工作。这一次,在讯飞听见智能会议系统的帮助下,机器辅助人工实现了大量的语音转写、文档整理及导出文档工作,会议一结束,文字版的会议记录就瞬间出炉。
在讯飞听见智能会议系统和录音宝M1s的帮助下,上海人代会现场的媒体记者们也获得了语音实时转写服务,大大缩短了两会报道的出稿时间。
针对常规的企业会议室场景,讯飞听见也推出了智能会议终端L1。这款终端机集成了超清摄像头与4麦克风阵列,以实现超清音视频采集。此外,该系统还可以自动区分出不同的人物发言,整理出更加清晰的会议文档。
与远程会议行业的众多竞品相比,讯飞听见云会议系统的最大卖点,自然是其搭载的这套AI语音文字转换解决方案。在此基础上,这套云会议系统同样支持中英文实时翻译,以满足涉外企业、国际化企业的会议需要。
事实上,近年来AI技术的不断突破,给远程会议、会展业带来了更多的产品解决方案。AI对这些行业的助力,也远不止实时字幕、实时翻译等服务。
例如,在近年的大型展会上,人脸识别服务也逐渐成为标配。在许多大会上,嘉宾只要提前录入人脸信息,就可以实现刷脸自助签到,省去了繁琐的传统签到流程。
在AI的助力下,VR、AR等新技术也在会展业上大放异彩。这些新技术给线上会展行业带来了全新的发展机会。一方面,无需实体场地、物料的线上展会降低企业成本;另一方面,线上展会可以让企业获得更多的展示机会,让以往一年一度、一季一度的展会,成为一种常态化营销手段。
远程会议行业也是如此。光大证券今年2月发布的远程办公行业报告指出,在远程会议服务的供给端,云计算、大数据、AI等新技术的发展,为远程会议提供了技术支撑,日益丰富的网络资源则提供了行业发展的底层基础,以远程会议为代表的远程办公行业正进入快车道。
例如,在远程会议场景中,人脸识别技术正大放异彩。如今,许多远程会议终端都具备人脸识别能力,可以自动捕捉人脸,并根据需要呈现正在发言者的特写画面。
如今,各大远程会议平台在音视频基础指标上,如画质、音质、稳定性、低时延等领域,都可以满足绝大多数行业用户。在越发同质化的远程会议行业,AI正在成为各企业之间的一大差异化卖点。
以音频技术起家的讯飞听见,自然会选择将实时字幕、翻译等功能作为旗下远程会议产品的核心卖点。此外,基于音频识别技术的会议纪要自动生成功能,也满足了一大批企业的基本需求。