林晖流利说 专访“流利说”首席科学家林晖:如何用呆板学

2018-03-17
字体:
浏览:
文章简介:由于恒久"哑巴英语"式的语言教诲,大部门以英语为第二语言的中国人一直都有着一个问题,那就是擅长读写,却在不擅长口语.但由于资源有限,不是每一

由于恒久“哑巴英语”式的语言教诲,大部门以英语为第二语言的中国人一直都有着一个问题,那就是擅长读写,却在不擅长口语。但由于资源有限,不是每一个有英语口语晋升需求的人都能获得外教的一对一向导。针对这个问题,英语流利说的办理要领是操作人工智能技能来辅佐中国人晋升本身的口语程度。

流利说创立于2012年,到今朝这款产物已经得到了约3600万用户。流利说的主要成果是提供文本并让用户跟读,然后系统会按照用户的发音精确度给出评分和发起。流利说App上提供的素材涵盖了从日常对话到留学、口试等诸多场景,因此受到了大量英语进修者的追捧。

但这项按照指定文本跟读的产物并不是这么简朴,它背后其实潜伏着流利说想要用呆板进修技能辅佐中国人整体晋升英语程度的野心。

在接管PingWest品玩采访时,流利说首席科学家林晖暗示,早在2012年公司方才创立时,这家公司就抉择要在语言进修中操作呆板进修技能。但由于创业公司在数据上的匮乏,而呆板进修又需要大量的数据才气被练习得很智能,因此流利说抉择先推出以上的跟读成果,收会合国人的口语语音数据。

颠末尾4年时间以及累计3600万用户的利用,此刻流利说已经把握了大量差异口语程度的中国人说英语的语音数据。并且由于这些语音是跟制定文本团结在一起的,所以它们是一种带标签的数据,对呆板进修系统来说越发名贵。

按照流利说和新浪教诲配合宣布的《中国英语口语白皮书》,流利说今朝已经收集了遍及的用户进修行为记录和长达2.75亿分钟、31.9亿句之多的复杂灌音数据库。

到此刻,流利说已经按照这些数据推出了两款处事型产物,别离是懂你英语和雅思流利说。个中懂你英语通过递归神经网络的深度进修模子,让流利说的自适应进修系统发生了自进修本领,让学生不绝打仗到相关性越来越高的进修内容。

别的,流利说方才上线的雅思流利说同样操作了被以上语音数据练习过的人工智能系统,辅佐雅思备考生完成后果评估和备考方案。由于雅思测验口语阶段评判上的主观性,雅思流利说可以或许精确地领略被测者的语义,从而给出一个相对客观的评分。

在上周PingWest 举行的 HAY!16 大会上,PingWest采访了流利说连系首创人兼首席科学家林晖,他向我们具体表明白流利说这款产物4年间的产物脉络:用东西积聚数据,用社区沉淀用户,再用数据打造人工智能的口语进修处事,并实现贸易化。

流利说主要团队成员,左一为林晖

林晖博士结业于华盛顿大学西雅图分校,曾任 Google 美国总部研究科学家。他也是语音识别、自然语言处理惩罚、深度进修及大数据挖掘算法专家,曾在相关规模颁发三十余篇国际论文,拥有多项中国及美国专利。

以下是采访实录:

PW:能简朴聊一下你的小我私家经验吗?

林晖:我2006年在华盛顿大学西雅图分校读了一个博士,研究的偏向主要是呆板进修,理论方面的一些研究,其时做了一些自然语言处理惩罚方面的应用。整体来说我从事这个规模或许十几年吧。在那之前我在清华做的也是技能方面的,其时我在电子系。谁人时候MSRA也就是此刻微软亚洲研究院方才成立,其时我还没有想好说是去事情照旧出国,所以读了硕士,而且读硕期间正好有个时机在微软亚洲研究院实习了半年。

我以为MSRA这段经验对我影响挺大的。当时候它其实是有一些较量前沿的,尖端的一些技能的研发,你可以看到本日AI火起来今后,或许有一泰半的人之前都在MSRA呆过。他们当时候做的对象就是跟AI相关的,我当时候去做的也是做跟语音识别相关的对象。

那段经验让我感受就是,做一些较量新的技能,较量前沿的技能的研究其实是很有意思的。所以在那之后,我抉择去海外读一个博士。虽然其时做出这个选择的一个原因是说:我以为我在技能上、工程上没什么问题,可是这种较量深入的技能,好比说呆板进修我但愿我再深造,再相识得更多。所以我去美国读了一个博士,博士的偏向也是较量偏呆板进修理论的研究,较量偏理论的对象。

在谁人时候我就以为,首先我对这种新的事物,未知的一些有很强的好奇心,我但愿去摸索、开辟一些要领。别的我但愿本身做的工作是真的可以或许不断留于理论,不止于发一些论文,而是有一些真正发生实际的代价,影响人们的糊口,这就是我为什么会努力的去家产界实习的原因。