透视科大讯飞“同传造假”:技术鸿沟未跨越
近日,人工智能语音领域领军企业科大讯飞被曝出“同传造假”,科大讯飞官方回应这是由于与同传译员沟通不足造成的误会。
据悉,引发此次事件是在2018创新与新兴产业发展国际会议上,该会议曾以“机器翻译”作为宣传,科大讯飞官方最近解释称这种方式是“人机耦合”,并承认机器翻译仍难以代替人工。
物联网资深专家杨剑勇对《中国经营报》记者表示,科大讯飞提出人机耦合背后,是智能(机器)翻译技术相对语音识别技术难度更大。
近年来,随着AI的热度递增,机器翻译也呈现出爆发之势。但根据本报记者了解,实际行业现状是目前机器翻译仍难以达到接近人类对话的效果,尽管不同企业开始竞相研发机器翻译新品,但如何令翻译更准确是AI领域待解的一大难题。
技术鸿沟未跨越
曾在脸书担任软件实习工程师的王谟,目前在知乎上有6万关注人次,是语音领域方面的专业答主。王谟告诉记者,“语音识别”是指把声音转换成文字的过程,不包括后续的理解、翻译等。而“同传”(同声传译)指的是在(识别)一个人说话的同时翻译成另一种(语言)。
业内普遍认为AI同传比语音识别更难,只有先识别才能进行翻译。据了解,搜狗机器同传技术系统需要将语音预处理、语音识别、文本预处理、机器翻译、语音合成五项技术模块进行结合。
中国传媒大学研究大数据与人工智能方向的教授沈浩认为,目前机器翻译这方面的技术已经成熟,水平强于(英语)六级,但易受处于近场或远场、有无噪音等因素影响。
沈浩对本报记者举例:“如果是日常生活用语,以及标准的一些话语,都没有问题,但涉及到诗、歌、抒情散文等,翻译结果容易出现问题。”
北京市速记协会理事长唐可为认为同传翻译和速录都要求精准,速录员和同传翻译在速录和翻译过程中要求精简记录,进行语义理解后更接近讲话者的记录,而目前的同传翻译并不能做到结合上下文完整表达句子意思。
“很多时候,机器速录、机器翻译后还需要人为进行实时修改,甚至更考验速录员和同传翻译,还更耗费时间。”唐可为表示。
搜狗语言交互技术中心技术总监陈伟表示,同传场景对语音识别的要求很高,错一个字对于源语言的理解基本不受影响,但若将同传后的文字翻译成另一种语言,可能整句都是错的。
科大讯飞方面则对本报记者表示,目前机器翻译已经取得非常大的进步,能够帮助人们在一些场景中处理语言交流的问题,但距离会议同传以及高水平翻译所讲究的“信、达、雅”(翻译中常要求的忠实原文、通顺畅达、译文优美三大原则)还存在很大的差距。
尽管有深度学习技术在语音、翻译等领域的快速突破以及大数据的红利,但是相比于训练有素的人工而言,机器实际上缺乏语音识别的稳定性、机器翻译的稳定性、对语言理解和再创造的能力。
此外,机器同传要与人工同传媲美,就要聪明而灵活地结合前后内容进行“创作”。陈伟表示,人工同传是对译文二次创造,因此译文往往流利度高,而机器对于口语化、命名实体和多义词较多等情况下翻译效果不够好,目前(利用机器进行)同传翻译仍基于当前单句进行翻译,上文的历史信息无法较好使用,以及在语言的理解和再创造的能力方面,目前机器无法基于原文进行引申和扩展,确保翻译效果的流畅性。
仍具备实际性价值
继前两年微软、百度、腾讯、科大讯飞、谷歌等纷纷推出翻译软件、发布翻译机器后,本报记者梳理发现,今年市面上仅公开发布的产品就有近十款,包括搜狗推出的搜狗旅行翻译宝、搜狗速记翻译笔、搜狗录音翻译笔记、搜狗翻译宝pro。华为、360手机、OPPO在推出新机时以机器翻译为卖点,甚至业内一家手机品牌糖果手机直接打出了“翻译手机”的概念,而猎豹移动也推出了一款小豹AI翻译棒。
“翻译机不是高高在上的黑科技,而是通过场景落地,解决用户在特定场景中需求的真正有用的技术。” 猎豹移动CEO傅盛在推出小豹AI翻译棒时称。
易观互动娱乐组群高级分析师殷实告诉本报记者,从商业或者专业会议的角度来看,翻译机还未能代替人工翻译在正式场合运用,更多是扮演一个辅助工具角色。“今年来,翻译技术火爆的原因主要在于它对翻译精度要求不高场合下有很高的使用价值。”
殷实认为,目前,翻译机在市场上主要用于在类似出行、旅游等对翻译精度要求相对低一些的行业,为游客解决在国外语言不通的问题,甚至在一定程度上推动了旅游业的发展。
据易观千帆的数据,旅游APP的月活跃用户量一年内增长了近30%,国外游的热度也一直没有减退。殷实认为,不能因为机器翻译当下存在问题就否认它存在的价值。
陈伟表示,对比人工同传和机器同传的能力,机器相较于人的优势是:机器基于海量数据能针对某个领域进行快速学习,机器同传能够忠实原文,一般不会遗漏译文,可长时间记忆,机器能够实现快速、高并发的部署,同时支持多场会议的同传,很大程度缓解人工同传资源不足的问题,降低同传成本。
尽管机器翻译的发展未完全尽如人意,但是陈伟认为机器翻译目前满足部分使用需求的价值已经显现。近些年,各种规模的国际交流越来越多,从行业大会到闭门小会,甚至到课堂培训,均存在同传的需求,而目前虽然有不错的大量(人工)同传从业者,但事实上还仍满足不了国际交流的需求。
沈浩认为,目前机器学习算法的趋势慢慢接近人工同传的可靠性,人们应该注重事物未来的发展趋势。
准确度壁垒待破
本报记者注意到,市场也不乏有众多声音称某某产品语音识别准确率、翻译准确率能达到多少。就语音识别准确率而言,各家公司自有其说法。
搜狗、百度和科大讯飞三家公司2016年11 月各自宣布其中文语音识别准确率达到了 97%。搜狗称其语音翻译的准确率可以达到90%。今年6月,央广网科技报道称,目前讯飞输入法的语音识别准确率提升到98%。近日,科大讯飞方面对本报表示,其机器翻译已经达到大学六级水平,2019年将达到英语专业八级水平。
王谟告诉本报记者,行业内一般采用“词错误率”进行测评,这个标准主要是看测试所用的“数据集”的难度,不同的数据集难度不同,所以单看一个词错误率的数字,并不能判断系统性能的好坏。如果要对技术进行测评,必须指明在哪个数据集上取得了这样的词错误率。王谟举例表示,在一个叫 Switchboard 的数据集上,目前微软和 IBM 都做到了百分之五点几的词错误率,已是行业领先。
王谟告诉记者,用标准数据集来测试也有局限性,一些标准数据集里没有考虑到噪音环境,另外,有团队可能专注于“刷榜”,把标准数据集上的词错误率刷到很低,但一换成别的数据,就会“现出原形”。
“这也是为什么有些时候一个宣传得很牛的产品到了实际中就各种不好用。毕竟实际环境是千变万化的,如果训练时没有覆盖到这么广的实际场景,在实际中就容易出问题。”王谟向本报记者解释道。
陈伟告诉本报记者,“现在很多翻译机的产品,特别是低价的翻译机更多是从第三方公司获取,这种情况下很难做二次的优化和开发。”
“根据我们在同传产品得到的经验,它并不是简单的‘语音识别+翻译’,出现‘1+1>2’的能力,往往(现实是)远远小于2,所以我们要把单点能力做好,同时产生‘1+1=2’甚至远大于2的效果。这件事情是目前搜狗同传和搜狗翻译宝具有的技术壁垒。”陈伟说。
沈浩认为各主要玩家的语音识别准确率已经差别不大,厂商们均掌握着技术原理,只是看哪家能够不断地去训练,对结果进行提升,如准确率从95%提升至96%,但实际上达到95%的准确率时,就可以将其现实化和商业化。“所以判断他们哪一款产品优秀,我也只能谈他们的界面、开源甚至使用成本等其他方面。”沈浩表示。
沈浩表示,从国内外对比上,谷歌能够实现全球多种语言之间的互译,而国内企业,例如科大讯飞主要是汉语以及方言的识别,或解决主流使用语言的翻译。
陈伟表示,搜狗正在横向扩展多语种的机器翻译技术,实现跨语音交流,“在这个技术上面临的很大问题是,如果我们没有足够的数据怎么办?在没有足够数据时,我们会考虑要不要面向于低资源(一门语言的数据很少,不足够训练语音识别或机器翻译系统的资源),或者是做没有数据、单向的翻译语料,或者是文本语料,做两个语种之间的翻译。”陈伟表示,“这两项技术是目前我们着重做的。”
责任编辑:依然
声明:如本站内容不慎侵犯了您的权益,请联系邮箱:wangshiyuan@epins.cn 我们将迅速删除。
热词推荐
MORE+- 1中公呢:说它是垃圾股,因为长时间阴跌;说它是一个好股票,因为它每一次都会让你赚钱(亚夏汽车002607)
- 2发现没有,很多票现在这么玩,第一季度盈利,第二季度盈利,第三季度盈利,第(亚夏汽车002607)
- 3我来说说世纪华通为什么开板?(世纪华通002602)
- 4我个人不喜欢炒小盘和概念类业绩差的股票,但是这些票真要玩就要跑的快,要灵活,要把(世纪华通002602)
- 5重大好消息!明天涨停(世纪华通002602)
- 6抖音平台九一开分成,对小游戏头部玩家三七算是大利好,也减小对微信一个平台的依赖,(三七互娱002555)
- 7股票这个东西是刚开始非常难什么都要学,历史,政治,大宗商品,交易心理学,(三元生物301206)
- 8财务美化是个好东西三元生物的年报毛利率只有3!也就是说扣除人工房租生产成本后三元(三元生物301206)
- 9早盘波大侠建仓了中信海直今天低空经济板块不错,选择了龙头中信早在前几日就一直在关(中信海直000099)
- 10自己看下下午的分时就知道了 2:26和 2:33. 分的时候,每次有人想(设计总院603357)
- 11商用密码+华为概念+信创+国产软件格尔软件触及涨停。近一年涨停4次。异动原因揭秘(格尔软件603232)
- 12主力还比我们小散急日月从2月6号转势开始成交量稳步放大'从原来的每天1亿多到今天(日月股份603218)
- 13这是只潜力大牛股,目前已经改变了前期长期下跌趋势,从前段时间突破重要技术线来看,(日月股份603218)
- 14新产品磷酸锰铁锂碳拉米电池!供不应求!固态电池!产值百亿元(日播时尚603196)
- 15早盘介入,网达软件该股趋势不错,只要大盘不调整,下午就有望封板。[胜利]恭喜同车(网达软件603189)
- 16昨天T飞了网达软件的低仓今天13块再补回来还做14到14.4的突破预期[加油]长(网达软件603189)
- 17这是什么破玩意,涨不动,跌起来贼6@驹哥哥 @老乡别走马上拉升 @菜鸟霸王(新泉股份603179)
- 18如果你打算将炒股进行到底,那么这篇文章建议看三遍!或许不能帮助你一跃成为高手,但(维远股份600955)
- 19早评:众多利空来袭!A股迎来关键时刻周五,美股和富时中国A50以及恒生科技指数期(维远股份600955)
- 20后续持续调整为主(bk0475)(04-27)
- 21这几天在调整的时候,就可以买点。一般而言,股价创新高后,回调整理一段时间(中国海油600938)
- 223月份三桶油年报全部披露完毕,仅有中国石油年报业绩实现正增长。我们来瞧一下三桶油(中国海油600938)
- 23老头原来不是在中石化唱多的么?活活把中石化从7块唱回了5块。这次又来中海(中国海油600938)
- 24股吧都不热闹,不少人离场了吧,都在等回调,可惜马上又要新高了 (中国海油600938)
- 25咱们就守着海油,不去外面当接盘侠 (贵州茅台600519)
- 26国际原油价格高位运行助推中国海油迈向新台阶。(中国海油600938)
- 27自30.88涨停日以来,净增仓0股,成本由16.228元下降0.595元至15.(中国海油600938)
- 28国际原油暴跌,逢低买入中国海油机不可失。(中国海油600938)
- 29药明今天做了倒差价多了0.21[哭][哭][哭] (中国海油600938)
- 30中国海油的大跌为踏空的投资者提供了买入机会。(中国海油600938)
- 上海贝岭股吧
- 浙大网新股吧
- 华东科技股吧
- 隧道股份股吧
- 深赛格股吧
- 光大银行股吧
- 中国银行股吧
- 永鼎股份股吧
- 苏州高新股吧
- 新安股份股吧
- 精达股份股吧
- 中国医药股吧
- 东风科技股吧
- 金健米业股吧
- 西部资源股吧
- 招商银行股吧
- 中联重科股吧
- 中国宝安股吧
- 中集集团股吧
- 德赛电池股吧
- 复星医药股吧
- 宇通客车股吧
- 中国建筑股吧
- 葛洲坝股吧
- 大唐电信股吧
- 华丽家族股吧
- 罗牛山股吧
- 中色股份股吧
- 京东方A股吧
- 新疆天业股吧
- 天坛生物股吧
- 抚顺特钢股吧
- 锦龙股份股吧
- 云天化股吧
- 振华科技股吧
- 国中水务股吧
- 华发股份股吧
- 飞乐音响股吧
- 青岛双星股吧
- 中国核电股吧
- 中国中铁股吧
- 西部矿业股吧
- 时代新材股吧
- 科达股份股吧
- 士兰微股吧
- 浦发银行股吧
- 中金黄金股吧
- 哈投股份股吧
- 航天晨光股吧
- 同仁堂股吧
- 维维股份股吧
- 福耀玻璃股吧
- 新五丰股吧
- 中航资本股吧
- 中金岭南股吧
- 丰原药业股吧
- 四环生物股吧
- 哈药股份股吧
- 万向钱潮股吧
- 中国高科股吧