霍金的机器 霍金说话软件 霍金说话的机器

2017-07-09
字体:
浏览:
文章简介:核心内容:霍金说话软件 霍金说话的机器2月2日,在伦敦举行的发布会上,英国著名理论物理学家霍金(左)和英特尔公司的用户体验设计师皮特·登曼发表讲话.因病瘫痪的英国著名物理学家斯蒂芬·霍金多年依靠一套量身定制的电脑软件与他人交流.开发这款软件的美国英特尔公司2日宣布,将在互联网上向有需要的残障人士和研发者免费开放这套软件.对这套应用了人工智能技术的"说话工具",霍金大赞.但就人工智能发展前景,他"悲观"预测,人工智能的高速发展可能最终导致人类"终结"

核心内容:霍金说话软件 霍金说话的机器2月2日,在伦敦举行的发布会上,英国著名理论物理学家霍金(左)和英特尔公司的用户体验设计师皮特·登曼发表讲话。

因病瘫痪的英国著名物理学家斯蒂芬·霍金多年依靠一套量身定制的电脑软件与他人交流。开发这款软件的美国英特尔公司2日宣布,将在互联网上向有需要的残障人士和研发者免费开放这套软件。对这套应用了人工智能技术的“说话工具”,霍金大赞。但就人工智能发展前景,他“悲观”预测,人工智能的高速发展可能最终导致人类“终结”。

英特尔在英国伦敦召开发布会,宣布定于明年1月在互联网上免费提供霍金使用的“说话软件”。这套软件将开放源代码,任何人都可以免费下载,并根据使用者需求改写。

霍金以面部肌肉操控软件,完成打字、与他人对话等活动。他“说话”时,面部肌肉动作被安装在眼镜上的红外线传感器捕捉,信号传送给电脑,转化为文字,由声音处理器“发声”。其他使用者可以根据各自需要,选择以触摸、眨眼、眉部动作等方式操控软件。

例如要进行文字输入或打开文件等操作,霍金需要反复抽动脸颊以进行指令切换。因此即便只是执行一次搜索,也往往要花费十分钟甚至更长时间。

史蒂芬·霍金第一次遇见英特尔联合创始人戈登·摩尔是在 1997 年的一次大会上。当时摩尔注意到,霍金用来沟通的电脑使用 AMD 处理器。于是摩尔问霍金是否愿意使用搭载英特尔处理器的“真正电脑”。自此以后,英特尔就开始为霍金提供定制电脑和技术支持,而且每两年会更换一次霍金的电脑。

霍金在 1985 年失去了说话的能力,原因是他在日内瓦欧洲核子研究委员会参加会议时罹患了肺炎。在住院期间,霍金需要依靠呼吸机来维持生命。医生们问霍金当时的妻子简,是否需要关闭生命维持设备。简断然予以拒绝。

霍金于是通过飞机转到了剑桥阿登布鲁克医院,这里的医生设法控制了感染。为了帮助霍金呼吸,他们还给霍金做了气管切开手术,在脖子上开一个洞,将管子放入霍金的气管中。正因为如此,霍金不可挽回地丧失了说话的能力。

在一段时间里,霍金通过拼写卡来交流,即通过扬眉毛来示意字母和组成单词。一直以来在为霍金开发一套新交流系统的 Martin King 联系了一家名为 Words Plus 的加州公司。该公司的电脑程序 Equalizer 可以让用户通过手敲击器来选择单词和控制电脑上的指令。

King 与 Words Plus 首席执行官 Walter Woltosz 取得了联系,询问这一软件是否能用来帮助一位罹患肌萎缩侧索硬化症的英国物理学教授。Woltosz 发明 Equalizer 的初衷就是帮助其同样罹患肌萎缩侧索硬化症而无法说话和写字的岳母。

Woltosz 表示道:“我问是不是史蒂芬·霍金,但 King 表示没有允许不能透露对方姓名。他在第二天打电话告诉我确实是霍金。我说我愿意捐赠任何所需的东西。”

Equalizer 最开始运行在一台 Apple II 电脑上,这台电脑连接着由 Speech Plus 公司开发的语音合成器。随后,霍金一位护士的工程师丈夫 David Mason 将这一系统移植到了一个可以加载在轮椅扶手上的便携式系统中。在这一新系统的帮助下,霍金可以以每分钟 15 个单词的速度与人交流。

然而,霍金控制手指运动的神经也在不断恶化。到 2008 年时,霍金的手就虚弱得不能使用敲击器了。霍金当时的研究生助理发明了一个名为“脸颊开关”的开关装置。这个装置安放在霍金的眼镜上,可以通过一束红外光来监测霍金的面颊肌肉是否收紧。

自此以后,霍金可以只通过一块肌肉来写电子邮件,上网,写书和说话。不过,霍金的交流能力仍然在不断下降。到 2011 年时,他一分钟只能说出一到两个单词,于是他写了一封信给摩尔,说:“我现在的语音输入非常非常慢。英特尔有什么可以帮到我的技术吗?”

摩尔要求时任英特尔首席技术官的 Justin Rattner 去研究这一问题。Rattner 从英特尔实验室中抽调了一组人机交互专家,并在 2012 年 1 月 8 日将他们悉数带到霍金 70 岁的生日会“宇宙状态”上。

Rattner 向观众们表示:“我从英特尔实验室带来了一群专家。我们将仔细研究应用一些顶尖计算机技术来提高霍金的沟通速度。我们希望这一团队能取得突破,让霍金恢复几年前具备的交流水平。”

霍金此时非常虚弱,连自己的生日都无法参加。几周后,他在自己位于剑桥大学应用数学和理论物理学部门的办公室中与英特尔的专家们进行了会面。这个团队由五人组成,包括体验技术实验室负责人 Horst Haussecker、先行计算实验室负责人兼项目负责人 Lama Nachman 以及交互设计师 Pete Denman。

“史蒂芬一直都是我的榜样”,同样乘坐轮椅的 Denman 说道:“在我摔断脖子瘫痪以后,我母亲给了我一本刚出版的《时间简史》。她告诉我,轮椅上的人同样能做大事。回首往事,我发现这真是太有预示性了。”在英特尔团队成员做了自我介绍后,Haussecker 接过话头来解释他们到此的来由以及计划。Haussecker 继续说了 20 分钟,然后霍金突然说起话来。

Denman 表示:“他欢迎了我们,并表达了他对我们到来的喜悦之情。我们不知道的是,他一直在打字。霍金花了 20 分钟来写一段由大约 30 个单词组成的贺词。我们对此很震惊。这让人心酸。我们意识到这个问题要比我们原来预想的更大。”

此时霍金的电脑界面是一款名为 EZ Keys 的程序。该程序是之前软件的升级版,也是由 Words Plus 设计。这个程序会在屏幕上显示一个键盘,同时还配有一个简单的单词预测算法。

一个光标会逐行逐列自动扫过键盘,霍金可以通过运动脸颊来让光标停止。EZ Keys 还允许霍金控制窗口中的鼠标,以及在电脑上操作其他软件。霍金通过火狐浏览器上网,用 Notepad 来撰写论文。他在用 Skype 时还使用网络摄像头。

这支英特尔团队也想过大幅改变霍金使用的过时系统,这需要引入新硬件。Nachman 表示道:“Justin 考虑使用面部表情识别、眼球追踪和脑机交互等技术。最初,我们告诉了霍金许多大胆的想法,也尝试了许多现有技术。”这些企图最终都失败了。眼球追踪技术无法锁定霍金的目光,因为霍金的眼脸下垂。

在英特尔的项目之前,霍金测试过能读取脑电波进而可能用来控制电脑的脑电波帽。不过,脑电波帽无法获得足够强的脑电波信号。Wood 称:“我们会在屏幕上显示字母,帽子会尝试根据大脑反应来选取正确的字母。这种技术用在我身上很好,但用在霍金身上效果却不大好。帽子无法获得足够强的信号。”

“我们对霍金的观察和倾听他的诉求越多,我们也就越发了解他真正需要的东西。除了能提高他的交流速度外,他还需要能和电脑更好交互的新功能”,Nachman 说道。在返回英特尔实验室并进行了几个月的研究后,Denman 准备了一段 10 分钟的视频发送给霍金,描述他们想要部署的新用户界面原型,并征求霍金的意见。

Denman 称:“我们不会大幅改变霍金使用原有系统的方式,但仍然会产生很大的改变。”这些变化包括增加了一个“后退按钮”,霍金可以用这个按钮来删除字母,也能后退到上一个用户界面;一个单词预测算法;以及后续单词导航,这一功能可以让霍金一个个选择单词,而不用输入单词。

在 Denman 看来,新系统的主要改变是解决了霍金在操作用户界面时遇到的最大问题:按键误击。Denman 表示:“霍金经常误选目标字母相邻的字母。一旦错选字母就要返回,再次错选,再次返回。这一过程令人难以忍受地慢,霍金也会感觉泄气。”霍金的完美主义更加重了这一问题。

“对于霍金来说,正确无误地表达自己的想法非常重要,标点也要完全正确”,Nachman 表示道:“他在抱有足够耐心的同时成为了一名完美主义者。他不是别的只想让消息精髓得到传播的人。霍金属于那种想要消息本身就完美的人。”

为了解决按键误击问题,这个团队增加了一个可以理解霍金意图而非实际输入的原型,该原型使用了字处理软件和移动手机中使用的类似算法。他们在视频中解释道:“你需要相信这个交互功能。当 iPhone 首次进入市场时,人们抱怨预测文本,但不信任很快就转化成了喜悦。整个过程只需要很短时间来适应,你必须放弃控制来让系统做事。增加这一功能会提高你的交流速度,让你专注于内容。”

在视频结尾时,他们问霍金:“你对此感觉如何?”当年 6 月,霍金造访了英特尔实验室,Denman 及其团队向他介绍了这个名为 ASTER(辅助文本编辑器)的新系统。Denman 告诉霍金:“你目前使用的软件有点过时了,非常过时了,但你已经非常熟悉使用它。因此,我们改变了后续单词预测算法,让它能准确地拼出正确的单词,即便你按错了字母。”

霍金回答道:“这和之前的版本相比取得了巨大进步。我真的很喜欢它。”

他们在霍金的电脑上部署了新的用户界面。Denman 认为团队走在正确的道路上。到 9 月时,他们开始收到反馈:霍金未能适应新系统。新系统太复杂了。后退按钮以及解决“按键误击”的原型功能让霍金感到困惑,不得不抛弃。

Denman 说道:“霍金是全世界最聪明的人之一,但我们却忘了他从未接触过现代科技。他从未有机会使用 iPhone,而我们却一直在用技术教全世界最知名、最聪明的 72 岁老爷爷学习新交互方式。”

Denman 和团队其他成员意识到,他们必须从其他角度来思考这一问题。“我们以为自己在用传统方式设计软件,即撒上一张大网,试图抓上来尽可能多的鱼。我们没意识到这一设计对霍金会有多大影响。我们必须只研究霍金这一个人。”

到 2012 年底时,英特尔团队安装了一个记录霍金与电脑互动的系统。他们录制了数十个小时的视频,涵盖了各种各样的情况:霍金在打字时的情况,霍金疲惫时打字的情况,霍金用鼠标时的情况,霍金试图调整窗口大小时的情况。Denman 表示:“这些视频我反复看了很多次。”

“有时候我会以四倍速度快进着看,却仍然会有新发现。”

到 2013 年 9 月时,在霍金的研究生助理 Jonathan Wood 的协助下,他们在霍金的电脑上部署了新一代用户界面。“我以为我们成功了,事情到此为止了”,Denman 说道。然而,到第二个月时,事情变得很明朗,霍金还是没能适应。Denman 回忆道:“霍金的一个助手将新系统称为‘ASTER’酷刑。当他们这么说时,霍金也会跟着笑。”

在英特尔团队推出让霍金满意的用户界面之前又过了许多个月。比如,Hawking 现在使用伦敦创业公司 SwiftKey 的适应性单词预测软件。通过这一软件,霍金在输入一个字母后可以选择单词,而在之前的系统中,霍金必须导航到用户界面底部,从一个列表中选择单词。

Nachman 表示:“霍金以前使用的单词预测系统非常古老。新系统要快速得多,也要高效得多,但我们必须对霍金进行培训才能使用它。在最开始,霍金还抱怨它,随后我才意识到:霍金已经知道了之前的系统会预测出什么单词来。他已经习惯于预测自己的单词预测软件。”

英特尔和 SwiftKey 进行了合作,在系统中集成了许多霍金的文档。有时候霍金甚至无需输入字母,预测软件就能基于上下文预测单词。“‘the black hole’(黑洞)这个词组并不需要任何输入”,Nachman 表示道:“选择‘the’就会自动预测出‘black’,选择‘black’就会自动预测出‘hole’。”

霍金的新版用户界面名为辅助语境觉知工具包(ACAT),包括上下文菜单,这可以为霍金提供多种快捷键,如说话、搜索和电子邮件;还有一个新的演讲管理器,可以让霍金控制演讲中说话的时机。新用户界面还有一个静音按钮,可以让霍金关闭语音合成器。

Wood 解释道:“因为霍金是通过脸颊来控制发声,如果他在吃饭或旅行时打开语音合成器,就会产生奇怪的声音。不过霍金有时候确实喜欢用这种方式来产生随机的声音。他一直都这么做,有时候非常不合时宜。记得有一次,他随机输入了四个‘x’,他的语音合成器发出了四个听起来很像‘sex’(性)的音。”

Wood 的办公室就在霍金办公室的旁边。不过霍金的办公室更像是一个车间而不是书房。有一面墙上满是电子硬件和实验原型产品。霍金的办公桌上有一个摄像头,这是英特尔正在进行的项目的一部分。Wood 表示:“这个计划是让摄像头拍摄霍金的面部,同时记录他的脸颊动作和面部动作。霍金可以上下左右活动下巴,这可以用来指挥鼠标乃至轮椅。这都是些很酷的想法,不过不会很快完成。”

霍金所坐轮椅的制造商在今年早些时候建议进行另一个试验项目,通过放在霍金下巴上的控制杆来让霍金独立操纵轮椅。Wood 表示道:“霍金非常渴望这一功能。问题是霍金的下巴和控制杆的接触。因为霍金的脖子无法运动,因此很难安装和拆下控制杆。”

Wood 还保存着霍金的语音合成器的唯一复制品。这是一台 CallText 5010 机器,在霍金于 1988 年造访其制造商 Speech Plus 时获赠。这个语音合成器中有一枚能将文本转换成声音的处理器,上世纪 80 年代的自动电话应答系统就采用这一设备。

Wood 表示:“我一直在试图将霍金的声音软件化,这样就不需要依赖这些旧硬件了。”为了实现这一目标,他不得不联系最初的 Speech Plus 团队。在 1990 年,Centigram Communications 收购了 Speech Plus。

随后 Lernout and Hauspie Speech Products 又收购了 Centigram,前者又于 2001 年被 ScanSoft 收购。拥有 35 处办公室和 1200 名员工的跨国公司 Nuance Communications 之后又收购了 ScanSoft。

Wood 联系了 Nuance。“他们有保存了霍金自 1986 年以来的声音的软件。或许我们会在 Nuance 的备份磁带中找到它。”

霍金非常怀念自己的声音:当 Speech Plus 在 1988 年赠送新语音合成器给霍金时,霍金因为声音很不一样要求 Speech Plus 用霍金自己的声音来替换。霍金的声音在 80 年代早期由 MIT 工程师、文本转语音算法先驱 Dennis Klatt 制作。

Klatt 发明了将文本转化成语音的首批设备之一 DECtalk。他在一开始制作了三种声音,分别是他妻子、他女儿和他自己的声音。其中,女性的声音名为“魅力的贝蒂”,孩子的声音名为“小猫咪”,男性的声音名为“完美的保罗”。霍金的声音就是“完美的保罗”。