江涛访谈 通信展访谈嘉宾:科大讯飞副总裁 江涛

2017-11-02
字体:
浏览:
文章简介:主持人:手机中国的各位网友大家好,您看到的是2012年中国国际信息通信展览会手机中国通信展报道.今天我们有幸邀请到了科大讯飞副总裁江涛江总来做我们的访谈嘉宾.江

主持人:手机中国的各位网友大家好,您看到的是2012年中国国际信息通信展览会手机中国通信展报道。今天我们有幸邀请到了科大讯飞副总裁江涛江总来做我们的访谈嘉宾。

江涛:大家好,我是江涛。

主持人:我们的专访从现在开始了。江总,我最早知道科大讯飞可能是从咱们的讯飞语音输入法,后来又扩展到讯飞语点,到最后我才听说咱们科大讯飞拥有很雄厚的语音技术基础,您能不能对咱们科大讯飞整个产品线作一下简单介绍。

江涛:OK,讯飞输入法和讯飞语点是面向大众的,大家可以网上下载感受一下产品。其实讯飞做语音很多年,我们是99年在原来国家科大的863项目的基础上,然后在科大云通讯实验室的基础上成立的。我们的导师王仁华八几年开始做语音,九几年我们开始创业。

当时做的第一个项目就是PC上的我们叫做统一输入法,就是在PC上实现,我们当时配了一个写字板,手写板,把手写的随意性,语音输入的快速性和键盘输入的准确新,实现了无混融合,当时在业界内是第一个产品,只不过当时PC上做实验我们没经验。

但是这个想法我们一直存在,要把语音收入的快速性、手写输入的随意性和键盘输入三者融合在一起,到08年慢慢起来了,科大讯飞准确地面向我们移动互联网战略,在09年开始紧锣密鼓开发讯飞的语音,基于云计算的体系架构向移动互联网中断提供会说的交互能力平台,2010年10月份正式发布了这样一个平台,同时发布了讯飞的输入法。

所以它并不是一个简单的产品,它后台确实有着很长时间的积累,包括长时间的平台准备和技术的储备,2010年底正式发布了讯飞语音输入法这个产品,它是业界第一个把手写、键盘和语音无混融合,没有状态切换的,这是我们很多用户最满意的一点,因为确实中文字,有的字手写快,笔划简单的,这时候要用拼音就得用很多次,比如中字,画几下就写出来了。

但是有些字拼音很简单,手写笔划很多。好多用户最烦的是之间的切换。我们还可以做到手写方面,由于讯飞把语音相关上下文的理解这个技术用在里面,所以可以实现手机上的联写,不停地往下写。

    主持人:这是最近说的云输入,是吗?

    江涛:不是,就是整屏手机,在2010年底就实现了,业界第一个实现这个技术的。我可以在很小的手机屏幕上,可以不停地往下写,另外在平板电脑上,或者说把手机横过来以后,可以横屏写,不用停顿,这都是业界相对来说在技术上处于领先的位置。

当然最大的亮点还是基于我们语音云的比较准确的语音输入,毕竟大家都能感受到,语音是我们获取信息或者说信息交互最自然便捷的一种手段,其实基于高准确度的语音收入,从根子上是有需求的,但是现实上过去一直有很大的难度。

随着讯飞语音输入法在各方面逐步地成熟,现在用户已经慢慢地接受了这种输入法。讯飞在没有什么互联网基础的情况下我们从去年年初开始推云输入法,用户一点点增加,现在已经过了两千多万,应该说是业界排名靠前的。

纯粹是靠用户的口碑口口相传的。毕竟我们不能像百度这样、搜狗一样,原来有很多的互联网用户基础,直接推过去。这个完全是靠产品说话。这个应该说是我们很自豪的一个产品。真正把我们十多年前的想法逐步实现了。

    另外,讯飞语点是我们今年3月份发布的新一代语音,就是具备,除了能听会说的能力以外,还有自然,我们把它叫做语点,对它寄托了这样的希望,就是它将来让广大的用户,用语音来单体传统的触摸屏的点击,比如说你发一个短信,发十几个字的短信,你得至少在屏幕上点几十次才能把手机发出去,我们的讯飞语点,说一下,一句话就生成了,应该说是给大家带来很多方便。

包括互联网的信息,我今天去国展怎么走,就可以标识出来。用语音代替传统的点击方式。希望它未来的语音能融入每个人生活的方方面面。

    主持人:看来不仅仅是语音识别的功能,有一个后台的服务。

    江涛:首先是语音识别,有个自然理解的过程,你不需要学习,你可以用自己比较容易接受的方式来提需求,来表达你的想法。系统理解以后,去找到对应后台的服务,把相关的结果展示给你,再用最好的语音合成给你播放出来,这是一个过程,它的最终定位就是让手机像一个能听会说的助理伴随在你身边,你有什么需求就可以告诉他。这是我们的终极目标,现在距离这个目标还有很多路要走。

    主持人:刚才江总介绍了讯飞语音输入法和讯飞语点两款产品。下面我们先聊一聊讯飞语音输入法,从江总的介绍中我们已经能够得到一个信息,这款输入法其实更贴近人的一种自然的输入习惯,比如说手写、语音,这种方式可能不需要我要去会懂拼音,就能够进行输入,更贴近自然人的自然输入方法。

现在其实在移动平台上,手机输入法其实还挺丰富的。而且竞争相当激烈,在同类的产品当中,讯飞语音输入法有哪些优势?

    江涛:首先从大的面来说,人类使用信息机器的一个过程,就是人变得越来越懒的过程。早期60年代的电脑,没有几年的训练,根本没法用。后来有DOS操作系统,学几个月就可以用,还有Windows,学几天就可以用。

再往下走,乔布斯的ipad小孩都可以用,就是要把它做到不用学习的状态。其实人类的沟通是最自然本原的一个状态,所以人和机器交互的设备,随着技术的不断成熟,这种交互界面一定会成为主流界面之一,它取决于技术和语音是否成熟。

就拿我们刚才的问题,我们的语音有什么样的优势,讯飞的语音云,今年6月份的时候,你看我们语音云是2010年底发布的,头100万用户用了整整6个月,因为讯飞刚发布的时候,大家也不太关注,我们毕竟不是一个互联网企业,也没有很多的用户基础,完全是靠一点点的口碑相传,头一百万用户用了6个月,从2011年初到2010年6月底攒了100万用户。

很快我们就发现下半年,第二个6个月就从一百万到一千万。

我们在去年年底筹办今年3月份的发布会的时候,当时我们想要搞一个寻找第2000万用户的活动,结果到3月份已经不搞了,为什么呢?那时候已经过了三千万用户了。到今年6月底已经到了6千多万的用户,加速增长,现在还在快速增长。

整个讯飞大几千万的用户,每天在使用讯飞语音云,为后台系统的持续训练打工了大量宝贵的数据,使我们能在算法上面,在个性化的优化方面,相对于同行、竞争对手,像苹果、谷歌,有明显的优势,这是第一个,我们数据的技术扎实。

另外一个,讯飞在算法上面有明显的优势,我们在抗噪、个性化的发音,语音的识别性方面,我们还有一定的优势。另外就是讯飞,我们在整个语音云,不光是云端,我们解决方案是云加端的解决方案,在手机端还有对应的模块和解决方案,使我们的云加端的解决方案,无论是对无线网络的要求,还是说准确率,相对来说纯云端的语音识别我们是有明显的优势。

这几方面就是讯飞语音为什么相对竞争对手做得比较好的地方。

    主持人:从您的介绍当中我们可以听到,讯飞语音在这方面,在差异化方面做得是非常不错的。刚才聊到了讯飞语音输入法,现在我们再聊聊讯飞语点。讯飞语点,我记得语音技术出现,可能是在苹果的Siri起来以后,在全世界范围内引起了很大的反响,让很多中国用户感到骄傲的是,咱们讯飞语点的出现,因为它毕竟是一个民族品牌,在使用方面,讯飞语点和Siri相比,您有什么样的看法?

    江涛:对,应该说这两个东西相比呢,应该说讯飞我们还是比较有信心的,其实主要差别在三方面,我们比较客观地说,第一个呢,就是讯飞语音的交互效果比它好,因为现在中文版的在网上i0S 也能提到,一个是中文的语音识别准确率比它高,另外中国语音合成比它更加自然,它那个Siri一发音像一个国外的老大妈,我们的语点就是比较亲切,声音很甜美的一个小妹,这种感知就不一样。

这是语音的交互体验,或者说语音的效果不一样。

如果说这次5分的话,我们至少是4分,比苹果高一分,当然我们也有可以持续提高的地方。这是跟Siri比第一个环节,我们5分比4分。第二个环节就是软硬件一体化的,这个环节如果5分的话,苹果得满分,我们讯飞充其量只能得4分。

因为苹果最强的就是软硬件一体化。比如说像苹果手机上直接有一个键,一摁就能激活,像我们做出来的软件,还要解锁,再找到软件对应摁了才能使用。苹果已经使用了三个麦克风能够有效地消除噪音。

还有跟手机系统的紧密结合,这方面苹果做得好,这一点我们讯飞语点比他是有差距。这点来说它5分,我们充其量只能4分或者3分半,而且确实短时间内没法突破,因为人家占据着手机系统的优势。

第三个环节,就是它和手机互联网应用的结合程度。这个环节,用通俗的话就是比谁更接地气,这个环节我们讯飞能够得到5分,苹果充其量能得到3分,因为它现在的服务就是OpenTable,这方面确实不差,但它是老美搞的东西。

在国内,像携程、基龙,每个领域在互联网领域都有做得最强的,不比国外差的。我们跟这些合作伙伴是能够深入地去沟通,把应用的对接做到极致,让用户有完整流畅的体验,这一点苹果相对来说它对中国没有那么重视,他不会专门为中国的互联网应用做太多对接的东西。

    所以说我们在这个层面的PK中,我相信我们能拿到5分,苹果目前我觉得它只能拿3分,将来充其量它能拿到4分,所以总得来说我们还是有一定的优势。

    主持人:其实我是能听出来,讯飞语点在××方面做得好,毕竟咱们本土的产品对咱们的使用习惯更加了解。刚才您提到苹果Siri的软硬件一体化,之前咱们的讯飞语点这个产品也一直努力在苹果的APP Store上上架,现在进展如何呢?

    江涛:我们6月份提交的,到现在苹果来拖着这个事情。

    主持人:有原因吗?

    江涛:其实主要的原因是因为讯飞语点做得比它好,确实因为从网友的反馈,从大家的对比使用来说,确实软硬件他做得比较好,但是我们语音交互的效果和语音接地化这一方面我们更实用。

我猜苹果可能没法接受别人比它好。所以到现在还没有结果,当然我们还会积极地去跟苹果沟通,争取给用户多一些选择,这个其实我们一直在呼吁,说讯飞语点APP Store如果能上市,对苹果也是好事,苹果用户多一些选择,多一点卖点,激发更多的开发者为苹果来服务,其实是一个共赢的局面,我们倒是觉得没必要把讯飞排斥在外。

    主持人:我可以看到苹果还有一个自我保护的意识,有点拒外。刚才说到始终都是围绕语音这个点来说的,但是我有一种观点不知道对不对,语音这个东西可能落实到手机上,对于我一个普通用户来说,这个东西可能是可有可无,没有硬性的需求,作为讯飞语音这两款产品来讲,怎样去挖掘一些潜在的用户呢?

    江涛:对,这其实是一个过程,我们把时间拉长了点看,你看十年前的手机,如果有一个摄象头那是很酷的事,手机都被摄象头了,虽然摄象头是30万象素、20万象素、、10万象素,其实一点用处都没有,多了一个摄象头、多了一个卖点。

现在要是哪个手机没有摄象头,压根儿卖不出去,因为摄象头在很多实际的场合,有很多很实用的功能。对比讯飞语音,现在的语音技术比十年前的摄象头有用得多,比如说你在走路不方便,或者说你想很快地做成一件事情的时候,毕竟它比你在键盘上叨咕效率要高,它能提高你的效率,增加趣味性,或者在你不方便看的时候变换为听。

但是最大的问题是,或者说我们面临的最大的挑战还是用户的使用习惯,一旦用户使用习惯培养成了,难度就比较高。

尤其对东方用户来说,大家看电视,老美回家第一件事情摁一下语音电话,他们就觉得对着录音设备讲话是很自然的事情。但在中国,早期运营商大力推广语音信箱,到后来有一段时间很多设备厂商去推录音电话,但从来没有成功过,东方的用户相对来说更羞涩一点,更习惯于人和人之间的沟通,不习惯设备之间的沟通,这是使用习惯培养的过程。

但是我们也能看到这个过程现在正在往前推动,苹果、谷歌、微软,大家都在培养用户的过程中,苹果5推的时候,会把Siri作为主要卖点。

苹果对用户的教育能力很强,苹果、谷歌、微软,包括微信在内的一些跟语音相关的软件,逐步普及用户的使用习惯,我相信几年时间就能普及成。现在最大的问题是,用户觉得对着手机说话有点傻,这完全是使用习惯的一个转变过程,我相信这一天迟早会到来。

    主持人:刚才我们聊到了用户的接受程度,其实可以看看现在已经有一些硬件产品开始和咱们讯飞语音合作了,现在科大讯飞在硬件厂商合作取得了哪些成绩,未来有什么计划?

    江涛:这方面在过去一两年中,成果还是很显著的,我们整个语音云,我们最看中的跟硬件合作的是三个领域,手机、汽车和智能家电。先拿手机来说,现在,用刚才的话说,现在的语音还是一个激励因素,作为一个卖点,像小米,二代发布会的时候,最大的卖点就是使用了讯飞的语音助理,类似于华为、联想都已经有相关的产品上市了,联想高调地讲在语音方面不怕任何国外的厂商,因为有语音卖点。

国内厂商还有一大批在做,不久的将来,我相信一年左右,基本上每个手机出来就必须用,没有智能助理就会觉得这个手机比别人弱了一节,这个是手机这块。

当然了,手机这块语音跟硬件还可以进一步地程序结合优化,比如说消噪技术怎么化解等等,这个苹果值得学习。

第二就是汽车,去年年底上海汽车发布了一款荣威350发布了一款叫××,方向盘有一个M键,一摁就跟汽车对话了,我要去国展,把路线画出来,明天天气怎么样,汽车跟你对话,把结果告诉你。

现在上汽,除了荣威系列以外,很快地各个系列也会上,另外其他的汽车也在推进。汽车用语音不是一个锦上添花。另外一个很大的就是智能家电,尤其是互联网电视,过去电视就那么多的频道,现在互联网电视接到互联网上,海量的互联网用户,如何让用户享受到,现在智能语音可以实现,你想看什么直接喊出来。

包括前段时间联想集成电视,就有语音识别,喊一下就能出来,这是最大的卖点。到明年几乎所有的电视都得有这个,没有这个,你不能跟人家PK。

当然智能家电中除了电视以外,还有其他的一些家电设备越来越迫切地提出通过语音交互来改善需求。这是最主要的领域,我们的理想。5到10年之后,每一部手机都能听说,每一台汽车都能听说,每一个家电都能听说,后台就讯飞的语音云给大家提供的交互能力。

    主持人:今天我们的视频专访就进行到这里,感谢大家观看,也感谢江总接受我们的采访,谢谢大家。