人工智能的原理 十分钟了解人工智能AI的基础运作原理
人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以预见未来几年将会进入“人工智能时代”。
目前AI已经遍布我们的世界并且在日常生活中产生了巨大的变化。这些AI并不是科幻电影中的那些有自我意识,计划毁灭世界邪恶的机器人。而是像我们的智能手机、智能家居、银行信用卡管家和智能汽车这些围绕我们每天生活的产品和服务都在使用AI。
AI将通过推动自动驾驶汽车的发展、改善医学图像分析、促进更好的医疗诊断和个性化医疗,从而带来社会的重大转变。AI 也将是支撑未来技术发展的基础资源,就像电力和网络一样。但对大部分人来说,AI 还是很诡异而且充满神秘感。
那么我们今天就来聊一聊AI最重要的功能——模式识别的工作原理。希望通过简明扼要的介绍帮助大家了解这个领域。
AI是一门严谨科学而不是无所不能神话故事,媒体过分夸大报道AI的功能,鼓吹威胁论都是不负责任的。AI目标是设计具有智能的机器,其中的算法和技术部分借鉴了当下对人脑的研究成果。今天许多流行的AI系统使用人工神经网络来模拟由非常简单的互相连接单元组成的网络,有点像大脑中的神经元。
这些网络可以通过调整单元之间的连接来学习经验,这个过程类似人类和动物的大脑通过修改神经元之间的连接来进行学习。神经网络可以学习模式识别、翻译语言、学习简单的逻辑推理,甚至创建图像或者形成新设计。
其中,模式识别是一项特别重要的功能,因为AI十分擅于识别海量数据中的隐藏的模式,而这对于依赖经验和知识的人类来说就没有那么容易。这些程序运行的神经网络具有数百万单位和数十亿的连接。我们现在所能创造出来的“智能”就是由这些电子神经元网络组成的。
机器不像人类具有感知器官和大脑,并且能够很好地协调工作,比如当我们看到一只狗的时候,就会很快的判断出来这是什么动物,并且具体什么种类。这个看似简单的过程对于机器来说都是十分困难的。而人类获得这样的能力,也是源自于生物上亿年的进化过程。而机器认识世界的方式是通过模型,需要通过复杂的算法和数据来构建模型,从而使机器获得很简单的感知和判断的能力。
下面介绍一下深度学习系统中一个最重要算法——卷积神经网络。如果你之前对AI相关知识有所了解的话,那你一定听说这个概念。这种算法参考了生物学研究人类和其他动物大脑视觉皮层的结构。简单介绍一下这种特定类型的人工神经网络,它使用感知器、机器学习单元算法,用于监督学习分析数据。
适用于图像处理、自然语言处理和其他类型的认知任务。与其他类型的人工神经网络一样,卷积神经网络具有输入层、输出层和各种隐藏层。其中一些层是卷积的,使用数学模型将结果传递给连续的层。这过程模拟了人类视觉皮层中的一些动作,所以称为卷积神经网路,也就是CNN。
举例子来看,当我们人类看到一只猫和一只狗时,尽管它们的体型很类似,但我们还是马上能够区分它们分别是猫和狗。对计算机而言,图像仅 仅只是一串数据。在神经网络的第一层会通过特征检测物体的轮廓。神经网络的下一层将检测这些简单图案的组合所形成的简单形状,比如动物眼睛和耳朵。
再下一层将检测这些形状组合所构成的物体的某些部分,例如猫和狗的头或者腿。神经网络的最后一层将检测刚才那些部分的组合:一只完整的猫、一只完整的狗等等。
每一层的神经网络都会目标进行图像组合分析和特征检测,从而进行判断和组合,并将结果传递给下一层神经网络。实际使用的神经网络的层次深度会比这个例子多很多,所以神经网络能够以这种分层的方式进行复杂的模式识别。
只要有大量被标记的样本数据库,就可以对神经网络进行特征训练。它对于识别图像、视频、语音、音乐甚至文本等信息特别有用。为了很好地训练AI的机器视觉,我们需要提供给这些神经网络被人标记的大量图像数据。神经网络会学习将每个图像与其相应的标签并相互关联起来。
还能将以前从未见过的图像及其相应的标签配对。这样的系统可以梳理各种各样的图像,并且识别照片中的元素。同时神经网络在语音识别和文本识别中也非常有用,自动驾驶汽车和最新医学图像分析系统中也是关键组成部分,所以你可以看到神经网络的运用是非常广泛而且有效的。
原来需要依赖人工标记大量有效数据来完成知识的输入,现在通过运行海量数据,让神经网络进行自我学习。大大提升的人工智能的应用范围,降低了使用的门槛。
人类大脑与动物远远不同,在进化过程中高度特化并且具有明显的适应性。而当前的AI系统远远不具有人类拥有的看似一般的智能。人工智能更高级的发展将会在后面进行讨论,我们这里还是关注现在实现的AI的基本原理。
强化学习 这是关于机器应该如何行动以获得最大化奖励的问题,它受行为心理学理论的启发。在特定场景下,机器挑选一个动作或一系列动作并获得奖励。机器行为每一步骤都会被标记,并且记录结果和赋予权重。强化学习通常用于教机器玩游戏和赢得比赛,比如国际象棋、围棋或简单的视频游戏。
强化学习的问题是,单纯地强化学习需要海量的试错,才能学会简单的任务。好处是只要你提出一个有价值的问题,提供足够的数据输入,理论上来说强化学习最终会找到那个最优解。
监督学习就是需要我们告诉机器特定输入的正确答案:这是一幅汽车的图像,正确答案是“汽车”。它之所以被称为监督学习,是因为算法是从带标签数据学习的。这个过程类似于向年幼的孩子展示图画书。成年人预先知道正确的答案,孩子根据前面的例子做出推测。这也是训练神经网络和其他机器学习体系结构最常用的技术。
无监督学习 人类和大多数其他动物的学习过程,特别是刚生下来的时候,是以没有人监督的方式来进行学习的:我们通过观察和认知我们行动的结果来了解世界如何运作。没有人告诉我们刚开始所看到的每一个物体的名称和功能。但我们仍然学会非常基本的概念,当前我们还不知道如何在机器身上实现这一点,至少无法达到人类和其他动物的水平。缺乏用于无监督学习的AI技术,也是当前AI发展问题之一。
概括来说当前AI技术原理是:将大量数据与超强的运算处理能力和智能算法三者相结合起来,建立一个解决特定问题的模型,使程序能够自动地从数据中学习潜在的模式或特征,从而实现接近人类的思考方式。下面补充介绍三个AI研究领域重要的理论方法和技术以便理解:
它使用来自神经网络、统计、数学和物理学的方法来发现数据中的隐藏模型,并且无需明确编程查找具体目标和范围。理论基础是这样的:假如我们为了研究某个复杂的科学问题,需要创建海量的机器学习模型、使用大量的算法、使用不同的参数配置,在这种情况下,我们就可以使用自动化的方式进行建模。
发展自动化机器学习是为了向科学家提供帮助,而不是代替他们。这些方法使数据科学家摆脱了令人厌烦和复杂耗时的任务(比如详细的参数优化和调试),机器可以更好地解决这些任务。
而后面的数据分析与结论的工作仍然需要人类专家来完成。在未来,理解行业应用领域的数据科学家,也就是数据业务架构师,仍然极其的重要。而这一项人工智能技术,将会辅助数据科学家建立模型并且加速验证的速度,从而减轻科学家的压力,让他们将精力放在那些机器无法完成的任务上面,通过更加合理的分工协作,大大加快科学技术研发速度。
这是应用非常广的技术,它使用具有多层处理单元的巨大神经网络,利用强大计算能力和改进的训练技术来学习大量数据中的复杂模式。原理是计算机在学习特定问题时,需要大量输入这个问题相关的学习材料也就是数据,然后在计算机通过算法和模型来构建对这个具体问题的认知,也就是总结出一个规律,那么在以后遇到相似问题时,计算机会把收集的数据转成特征值,如果这个特征值符合这前面规律里面的特征值,那么这个事物、行为或者模式,就可以被识别出来。
常见的应用太多了,这里大概举一些例子:
计算机视觉,这就像是机器的“眼睛”。依赖于模式识别和深度学习来识别图片或视频中的内容。当机器可以分析和理解图像时,他们可以实时捕捉图像或视频并解读周围环境。感知周围环境、识别可行驶区域以及识别行驶路径,这也是无人驾驶的基础技术。其中图像识别原理是通过识别图片中的对象,然后建立标签,实现对海量图片进行分类,也可以对图像中的人脸或者其他目标进行识别,运用在安防监控等领域;
自然语言处理中语音识别技术就像是机器的“耳朵”:这是计算机分析、理解和生成人类语言和语音的能力。运用语音采集的技术和方法,对音频中的语言内容进行提取和识别,实现语音实时转文字的功能;下一阶段将会是自然语言交互,人们将可以使用普通的日常语言与计算机进行交流和执行任务。这也是AI语音助手和语音控制交互技术的基础。
机器翻译:模仿人脑理解语言的过程,形成更加符合语法规则同时更加容易被人理解的翻译,谷歌在线翻译功能就是运用了深度学习技术,让机器的翻译水平大大提升;
情感识别:通过识别新闻、社交媒体、论坛等文本内容中所包含的情感因素,及时了解网络舆论对新闻事件的反应情况;
医疗诊断:比如通过对各个阶段的肿瘤诊断这类医疗图像数据进行学习,总结出恶性肿瘤形状、纹理、结构等“特征”模型,从而使机器可以进行判断。
可以看到深度学习在神经元网络的基础上,发展出了非常多的应用案例,并且当下各个行业的人工智能辅助工具和软件都在大力开发中,各种数据都在被大量采集、清洗、输入模型训练,一旦训练成功就可以大规模部署,带来巨大的商业价值。具体有多大呢?参考一下人脸识别领域的独角企业估值和号称千亿的市场规模就知道了。如果这样的市场再乘以百倍、千倍呢,这里面的蕴含商业机会有多少呢?
这也是人工智能的子领域,目标是与机器进行自然的、类似人类的交互。使用人工智能和认知计算,最终目标是让机器获得理解图像和语音的能力,模拟人类交流过程,从而实现与人类的自然对话。也是根据神经网络和深度学习来构建的,应用来自认知科学的知识来构建模拟人类思维过程的系统。
它涵盖多个学科,包括机器学习、自然语言处理、视觉和人机交互。IBM Watson 就是认知计算的一个例子,在美国答题竞赛节目上Watson 展现了它先进的问答交互能力,并且打败了人类。与此,同时Watson这些服务应用接口也进行了开放,可提供其他组织用于视觉识别、语音识别、语言翻译以及对话引擎等等。
就像AI的产生是多学科发展的综合成果一样,当下AI的快速发展也是多方面技术进步综合起来取得的成果,总结里面重要的三个方面:
直到本世纪初研究人员才意识到,为视频游戏设计的GPU(图形处理单元)可以被用作硬件加速器,以运行比以前更大的神经网络。这要归功于这些芯片能够进行大量并行计算,而不是像传统CPU那样按顺序处理它们。这对于同时计算构成深度学习神经网络的数百个神经元的权重特别有用。
AI这么快就流行起来,在很大程度上是因为开放的软件工具(也称为框架),使得构建和训练一个神经网络实现目标应用程序变得容易起来,即使是使用各种不同的编程语言。对于已知的识别目标,可以离线定义和训练一个神经网络。
一旦训练完成,神经网络可以很容易地部署到嵌入式平台上,也可以迁移到各种软件程序和硬件平台中。这是一个聪明的架构,允许借助PC或云的能力训练神经网络,而低功耗的嵌入式处理器只需使用训练好的数据来进行识别。人体和物体的能力与流行的应用密切相关,比如工业机器人和自动驾驶汽车。
图形处理单元是AI的关键,因为它们提供了迭代处理所需的大量计算能力。训练神经网络需要大数据和计算能力。而物联网从连接的设备生成大量数据,其中大部分未经分析。 使用AI自动化模型将允许我们使用更多的物联网数据进行分析,将物流和信息流更好的结合起来。
还有就是AI应用程序接口,可以将AI功能添加到现有产品和软件中。比如它们可以为安防视频系统中添加图像识别功能;也可以在我们观看网络视频时,自动创建翻译和字幕;或者是在拍照程序中自动识别人物性别和年龄甚至是表情和情绪等等,应用将会非常广泛。
总之,这都是 AI 经常使用的方法,即使我们创造了单个项目拥有超越人类智慧的机器,这些机器仍然能力有限。短期来看,人工智能将提供接近人类交互体验,并为特定任务提供辅助支持,但它还不能成为人类的替代品,有自我意识的AI还不会很快出现。
本篇是老张创作的课程《人工智能进化论课程》基础篇内容,转载需授权。
读完了觉得有帮助请转发和评论~
想要了解全部课程内容,加入圈子和老张讨论的请点击下面“加入圈子”,订阅“人工智能进化论”课程。或者加wx:AI61825