李爱军演员 李爱军研究员访谈
李爱军,博士,中国社会科学院语言研究所研究员、博士生导师,语音研究室主任,中国社会科学院语言研究所党委委员、学术委员,《中国语音学报》主编,中国语音学会副会长,SIG- CSLP委员会委员,O-COCOSDA中国代表。享受国务院特殊津贴,2010 年被推选为新世纪百千万人才工程国家级人选。
李爱军研究员近照
采访人:殷治纲博士,中国社会科学院语言研究所副研究员。
访谈时间:2016年11月
访谈地点:中国社会科学院语言研究所
殷治纲:请谈一谈您是如何走上语音学研究道路的。
李爱军:我是1991年硕士研究生毕业后来中国社会科学院语言研究所工作的。毕业前,我在天津大学计算机系攻读硕士学位,研究生课题是与电子系合作开展有关汉语普通话语音识别的研究。由于课题涉及很多语音学知识,因此曾多次来语言所语音室拜访吴宗济、林茂灿、杨顺安等诸位先生。
当时的计算机处理能力有限,语音处理需要在PC机上加装专门的DSP处理器(高速数字信号处理器)。我当时基于DSP的语音识别系统研究方向受到语音室杨顺安老师的关注。
杨老师是国内最早从事语音合成研究的学者之一。与杨老师的交流使我加深了对语音学研究的认识,进而产生了从事语音学研究的想法。杨老师也希望我毕业后能够来语言研究所工作,跟他一起开展语音合成的研究,提高语音合成系统的性能。
之后,杨老师先后两次去天津大学对我的研究情况进行考察,并在我毕业答辩时担任了答辩委员。毕业后,我顺利来到语言研究所工作。上个世纪90年代初,计算机专业毕业生属于稀缺专业人才,院网络中心还曾希望我去他们那里工作。但是,出于对语音学研究的兴趣,我还是毫不犹豫地选择了来语言所从事语音学研究工作。
1991年语音室科研人员在进行语图分析(前排左曹剑芬老师、前排右祖漪清,后排左陈肖霞,后排右李爱军)
殷治纲:从计算机专业跨行到语音学领域,您是如何适应这一过程的?请您简要介绍一下。
李爱军:来语言研究所之后,我发挥自己在计算机领域的专长,很快将杨老师的合成系统移植到DSP上,实现了实时处理,大幅提高了系统的性能。为了弥补语音学知识的短板,我开始向语音室前辈吴宗济、林茂灿、曹剑芬、孙国华等诸位老师系统学习语音学专业知识,包括用KAY7800语图仪制作语图、学习辨认语图等,并配合杨老师进行合成系统的调试、完善合成参数以及实现普通话轻声合成等。
到1992年,我跟杨老师的学习时间还不足一年,杨老师却不幸英年早逝。在这之后,我就开始接手杨老师的合成系统,继续开展普通话语句合成的研究工作。在此其间,吴宗济先生给予我很大的帮助,几乎是一个音一个音地指导我进行参数调整,之后该套合成系统还参加了国家863语音合成评测。
那时基于语音叠加拼接的PSOLA成为合成技术开始逐渐成为主流,我们这种基于共振峰参数规则合成出来的声音,在音质上不具有优势。当时林茂灿先生组织了一次内部交流,大家一致认为PSOLA出现后,尽管音质有所提高,但合成自然度会遇到瓶颈。
因此,实验室适时地将研究方向转向普通话的韵律研究,包括语调、语调与声调关系、轻重音、韵律结构等,从当今语音合成的发展成果来看,当初的抉择是非常正确的。
吴宗济先生指导李爱军和胡方(右一)用电磁发音仪进行实验研究
1993年语言研究所团支部在烟台调研(前排右一为李爱军)
殷治纲:请您简要介绍一下语音室这些年的工作思路和研究重点。
李爱军:在吴宗济先生、林茂灿先生等老一辈学者的带领下,语音室注重汉语的语音特点,坚持以问题为导向开展各项研究工作。吴宗济先生从八十年代开始开展声调、语调研究,提出了语调的必然变调和或然变调,包括多米诺现象、跷跷板规则、移调规则等等,从词、短语和语篇几个层次研究语调变化规律。
吴先生非常注重语音学与言语工程的结合,提出“我们研究的是汉语的语音,一来是汉语的特点与西方语言的大不相同,西方的规律对汉语的问题不能全部照搬;二来是汉语的内涵不只包括语法和语音,还有其他重要成分,如历史演变和社会因素等,也都反应在语音变量之中。
因此,人文科学在语音研究中的意义,并不比自然科学的实验分析次要。以中国人来处理汉语,总还有其一得。”指出我们在汉语语音研究中大有作为,应该建立起反映汉语特点的语音学理论。
在上个世纪90年代,语音和语言技术发展出现了一个小高潮。随着互联网的发展,大家都看到这是一个具有巨大应用前景的发展方向,包括微软、IBM、Intel等在内的国际IT巨头纷纷抢滩中文语音市场。国内的研究院所和大学也在国家863、973等项目支持下,大力开展语音和语言技术研究。
吴宗济先生和林茂灿先生一直提倡开展面向应用的语音学研究工作。我们曾经尝试过与当时的翻译公司合作,开发词典发音系统。我负责软件,蔡德和老师负责硬件,实现了一套利用普通话协同发音规则的语音拼接合成系统。1996年,林茂灿先生还带领祖漪清、我和李智强等几个年轻同志,承担了863项目中语音合成韵律库的建设和韵律研究。
1996年国家863项目专家组高文组长(左一)来语音室考察工作李爱军进行合成系统演示,右一为曹剑芬老师
吴宗济先生和林茂灿先生始终认为,具有汉语自身特色的语言和语音技术应该是我们中国人独具优势的研究方向,他们一直积极支持中国的语音产业发展。2000年,就在安徽科大讯飞公司成立的第二年,语言研究所就跟科大讯飞公司成立了第一个联合实验室。
时任语言所所长的沈家煊先生亲自签署协议,我当时也参加了签约仪式。在此之前,我们和安徽科大讯飞公司的合作可追溯到1994年。当时,吴先生与中国科学技术大学的王仁华教授在东京口语处理国际会议上结识,共同的事业追求和民族情怀让他们很快达成开展汉语语音合成研究的合作意向。
从那时起,吴先生开始帮助指导王老师的学生研究汉语的语音特点。现在讯飞公司的总裁刘庆峰博士,当时正在做研究生论文,为了跟吴先生学习语音学,就在吴先生家附近的地下室租住了很长一段时间。
吴先生还针对普通话语音合成系统,研制了“韵律标记文本”和“全语音标记文本”等方案。目前,科大讯飞已经发展成了国际知名的语音和语言技术科技公司,我们感到非常欣慰,并且一直保持着良好的合作关系。
这些年,我们一直坚持“理论联系实际、科研服务社会”的发展思路,与国内外很多知名企业开展了语音技术方面的研究合作,并积极申报和承担了各类研究项目,特别是在语音数据资源建设方面取得了一些成绩,为国内语音技术的发展提供了重要的数据支撑作用。
殷治纲:科研工作离不开国际化视野,请您谈谈在扩大语音室的国际学术影响力方面所做的一些工作。
李爱军:我在1997年被派到到瑞典斯德哥尔摩大学访学,期间先后访问了隆德大学和瑞典皇家理工学院。拜访了Fant,Gruce, Garding等许多知名教授,通过与这些大家面对面交流,我受益匪浅,自己的研究方向也逐渐形成。从那时起,我开始注重参加国际重要的语音学会议。1997年底在雅典举行的语调研讨会上,我与国际上许多知名学者建立了联系,了解到大家关注的热点问题。
2000年,国际口语处理会议(ICSLP2000,后来该会议与EUROSPEECH会议合并为现在著名的Interspeech会议)首次在北京召开,吴宗济先生受邀作大会报告,我作为秘书全程参与,并在大会闭幕式上作会议总结。
在这次会议上,我们正式推出了汉语韵律标注规范C-ToBI和音段标注规范SAMPA-C。由于我较早开展了对汉语口语韵律的研究,我还应邀在2002年法国召开的国际韵律大会Speech Prosody上进行了主旨报告。
2004年,我们举办了首届声调语音国际研讨会TAL2004,会议邀请到了Fant、Fujisaki、Ohala、Abramson、Bruce、Kohler、Hirose等国际著名语音学家,充分展示了中国在语音学领域的研究进展。2008年,我们主办了中国语音学术会议(PCC2008)暨庆祝吴宗济先生百岁诞辰国际学术研讨会。该会议再次成为国内外语音学界一次盛会。
2008年全国语音学年会的几位组织者合影(从左到右:台湾中研院语言所所长郑秋豫、李爱军、清华大数据联盟秘书长王霞博士、法国访问学者葛妮)
2011年,我们协助香港城市大学徐云扬(Eric Zee)教授成功举办了第17届国际语音科学大会,这是该会议第一次在欧洲以外的地区举办,标志着亚洲语音学研究水平的进步。来自全球各地的2000余位专家学者参加了这次盛会。
2011年国际语音科学大会组织者合影(从左至右:郑秋豫研究员、徐云扬教授、李爱军研究员)
为扩大语音室的国际学术影响,语音室积极参与国际合作项目研究,曾与诺基亚、摩托罗拉、东芝等国际大公司开展了一系列合作研究。这使我们掌握了国际最新研究动态,对保证我们研究工作的前瞻性具有积极意义。2000年,我们和清华大学、美国约翰-霍普金斯大学联合参加了美国国家科学基金的汉语自然语音识别项目,并完成了国内第一个自然口语语音库CASS及其语音标注工作。
2002年,与诺基亚中国研究中心合作完成了欧盟SPEECON-Mandarin项目。
通过该项目,我们掌握了国际语料库技术的相关规范。后来我们承担的国家863项目,借鉴了这些技术规范,建立了覆盖中国10大方言区、2000人规模的语音识别库RASC863,并通过CHINESELDC平台发布了一系列规范化的语音语料库,回馈学界和业界。
2004年,我们与IBM中国研究院合作开展情感语音研究。此后还相继与诺基亚、摩托罗拉和东芝中国研究院开展了带有口音、不同话语风格和多语种语音的研究。
另外,我们还与国外一些研究机构建立了较为密切的合作关系。比如在婴幼儿语音与语言习得等方面,我们与加拿大魁北克大学心理系史如深教授进行了密切合作,并在她的指导下建立了国内第一家儿童语言与认知发展实验室,包括心理实验和产出实验两个方面。我们还与荷兰乌特乐支大学Rene Kager教授开展了婴幼儿韵律习得方面的研究工作。该项目被荷兰皇家科学院列为当年中荷10大重大科学研究合作项目。
儿童语言产出与语言感知实验室
与荷兰合作项目被荷兰皇科院列为与中国10大合作科研研究之一
殷治纲:请您谈一谈您自己近年来的研究重点。
李爱军:近几年,我的研究重点一直是围绕口语交互、语音习得问题展开的。在口语语篇的韵律特征研究上,特别是在言语交互中,韵律特征是如何与其他语言特征一道对言语行为进行编码和解码的;多模态情感语音的感知、发音和产出特性,与交际双方的语言文化背景的关系等。
开展儿童语言习得研究是我心中多年的一个梦想,希望能够从认知层面探索语音系统的获得机制,包括婴幼儿如何获得母语音系系统、母语对二语语音习得的影响和它们之间的关系等等。
这要特别感谢日本北陆先端科技大学的党建武教授。10年前,我参加了他的一个跨文化情感研究项目,并得到日本振兴学会项目资助,得以在他的指导下完成博士研究课题“情感语音的多模态跨文化研究”,内容涉及情感语音的多模态编码和解码过程及其与语言文化背景的关系。
应该说这个课题是我一直感兴趣的,因为2004年开始,我们就与IBM合作情感语音合成,对几种典型的情感进行了语音分析和合成研究。研究著作也在去年由Springer出版。
殷治纲:请您谈谈语音研究室当前的工作重点和未来的发展方向。
李爱军:你是1999年来语音研究室工作的,算是“老”人了。2000年以后,咱们实验室在不同的研究方向上补充了一批新生的研究力量,有胡方、熊子瑜、方强、贾媛、高军、夏俐萍等,并在国家专项资金支持下,购置了电磁发音仪、口鼻气流计、动态腭位仪、脑电仪和眼动仪等成套设备,还新建了发音生理实验室和语音认知实验室。
可以说这几年语音室迎来了最好的发展机遇。在语音研究室同仁的共同努力下,语音室于2011年作为首批试点单位进入中国社会科学院哲学社会科学创新工程。
依托创新工程的体制机制,实验室开展了方言语音和语法类型学研究、儿童语言认知和发展研究、语言发音机理和建模研究、语言与语音多模态接口研究以及语言和语言资源服务平台建设等一批创新工程项目,并通过聘用科辅团队、招收访问学者和学生、建立跨单位和跨领域合作课题组等方式大力推进各项工作,取得了一系列阶段性的研究成果,并于去年底顺利完成了一期项目的研究计划。
未来几年,我们将继续沿着“理论与应用并举”的发展道路,在一期工作的基础上深耕细作,争取在发音生理建模、儿童语音常模、篇章韵律功能等领域多出一些有实际应用价值的研究成果。
语音室全家福(2017年)
殷治纲:请您结合自己的经验,给年轻科研人员一些建议。
李爱军:我最高兴的事情是看到培养的学生在学术上获得了成就,年轻的科研人员不断成长,实验室付出的努力和取得的进步获得大家的认可。
天津大学的校训是“实事求是”,语言所的所风是“求真务实”。我特别幸运,在天大学习了7年,在语言所工作了25年,这些优良的学风滋养了我,也希望它能成为年轻学者的指导思想。
在具体工作方面,我想年轻科研人员首先要有明确的学术目标和学术追求;其次,应该有正确的价值观,能够专注于学术,不为个人名利患得患失;最后,应该有良好的团队合作意识和奉献精神。
在科研机遇方面,人工智能在全球成为热点话题。人工智能与语言认知紧密相关,它发展到高级阶段,语言认知和理解等方面的研究将会起到关键作用。语言学家和语言学知识在人工智能时代大有用武之地,甚至是不可或缺的。但人工智能技术发展非常迅猛,机会对我们来说稍纵即逝,年轻学者一定要把握机会。
最后,希望年轻科研人员继续发扬我们语言所“求真务实”的优良传统,抓住机遇,有所担当,不负时代,在国际舞台上施展自己的才华。