卷积神经网络的好处(收集3篇)

来源:

卷积神经网络的好处范文篇1

深度学习卷积神经网络

过去几年里,深度学习卷积神经网络所取得的成就足以使它成为人工智能王冠上最光彩夺目的明珠。基于深度学习卷积神经网络的语音识别系统把语音识别的精度提高到了产品级的精度,从而为人类与计算机及各种智能终端之间提供了一种崭新的、更为便捷的交互方式。将深度学习卷积神经网络应用于图像内容及人脸的识别,科学家们取得了能够与人类视觉系统相媲美的识别精度。战胜韩国棋圣李世石的谷歌围棋软件AlphaGo能够取得如此辉煌的战绩,深度学习卷积神经网络也发挥了关键性的作用。接下来,我们对深度学习卷积神经网络的起源及其原理做一个简单介绍。

脑神经科学领域的大量研究表明,人脑由大约1011个神经细胞及1015个神经突触组成,这些神经细胞及其突触构成一个庞大的生物神经网络。每个神经细胞通过突触与其它神经细胞进行连接与信息传递。当通过突触所接收到的信号强度超过某个阈值时,神经细胞便会进入激活状态,并通过突触向上层神经细胞发送激活信号。人类所有与意识及智能有关的活动,都是通过特定区域神经细胞之间的相互激活与协同工作而实现的。

早于1943年,美国心理学家W.S.McCulloch和数学家W.A.Pitts就在他们的论文中提出了生物神经元的计算模型(简称M-P①模型),为后续人工神经网络的研究奠定了基础。M-P模型的结构如图1(a)所示,它包含n个带有权重的输入,一个输出,一个偏置b和一个激活函数组成。n个输入代表来自下层n个神经突触的信息,每个权重W)代表对应突触的连接强度,激活函数通常采用拥有S-型曲线的sigmoid函数(参见图1(b)),用来模拟神经细胞的激活模式。

早期的人工神经网络大都是基于M-P神经元的全连接网络。如图2所示,此类网络的特点是,属于同一层的神经元之间不存在连接;当前层的某个神经元与上一层的所有神经元都有连接。然而,人们很快发现,这种全连接神经网络在应用于各种识别任务时不但识别精度不高,而且还不容易训练。当神经网络的层数超过4层时,用传统的反向传递算法(BackPropagation)训练已经无法收敛。

1983年,日本学者福岛教授基于Hubel-Wiese的视觉认知模型提出了卷积神经网络计算模型(ConvolutionNeuralNetwork,简称CNN)。早在1962年,Hubel和Wiesel通过对猫视觉皮层细胞的深入研究,提出高级动物视觉神经网络由简单细胞和复杂细胞构成(如图3所示)。神经网络底层的简单细胞的感受野只对应视网膜的某个特定区域,并只对该区域中特定方向的边界线产生反应。复杂细胞通过对具有特定取向的简单细胞进行聚类,拥有较大感受野,并获得具有一定不变性的特征。上层简单细胞对共生概率较高的复杂细胞进行聚类,产生更为复杂的边界特征。通过简单细胞和复杂细胞的逐层交替出现,视觉神经网络实现了提取高度抽象性及不变性图像特征的能力。

卷积神经网络可以看作是实现上述Hubel-Wiesel视觉认知模型的第一个网络计算模型。如图4所示,卷积神经网络是由卷积层(ConvolutionLayer)与降采样层(SamplingLayer)交替出现的多层神经网络,每层由多个将神经元排列成二维平面的子层组成(称为特征图,FeatureMap)。每个卷积层和上层降采样层通常拥有相同数量的特征图。构成卷积层x的每个神经元负责对输入图像(如果x=1)或者x-1降采样层的特征图的特定小区域施行卷积运算,而降采样层y的每个神经元则负责对y-1卷积层的对应特征图的特定小区域进行MaxPooling(只保留该区域神经元的最大输出值)。卷积运算中所使用的卷积核系数都是通过学习训练自动获取的。卷积层中属于同一个特征图的神经元都共享一个卷积核,负责学习和提取同一种图像特征,对应Hubel-Wiesel模型中某种特定取向的简单细胞。卷积层中不同的特征图负责学习和提取不同的图像特征,对应Hubel-Wiesel模型中不同类型的简单细胞。而降采样层y中神经元的MaxPooling操作等同于Hubel-Wiesel模型中复杂细胞对同类型简单细胞的聚类,是对人脑视觉皮层复杂细胞的简化模拟。

上世纪90年代初期,贝尔实验室的YannLeCun等人成功应用卷积神经网络实现了高精度手写数字识别算法,所提出的系列LeNet,都达到商用级识别精度,被当时美国邮政局和许多大银行用来识别信封上的手写邮政编码及支票上面的手写数字。然而,受制于90年代计算机有限的内存和弱小的运算能力,LeNet网络采用了较浅的网络结构,每层使用的特征图数目也很少。尽管它在小规模图像识别问题上取得了较好的效果,但与传统机器学习算法(如SVM,AdaBoost等)相比,优势并不十分明显。此外,由于卷积神经网络拥有很高的自由度,设计出一款性能优异的网络需要灵感并配合丰富的经验积累,是一项极具挑战性的工作。因此卷积神经网络在被提出后的很长一段时间里并未得到足够的重视和广泛的应用。

2012年,加拿大多伦多大学GeoffreyHinton教授的团队提出了一个规模比传统CNN大许多的深度卷积神经网络(简称AlexNet)。该网络拥有5个卷积与降采样层、3个全连接层,每个卷积与降采样层拥有96384个特征图,网络参数达到6000多万个。利用AlexNet,Hinton团队在国际上最具影响力的图像内容分类比赛(2012ImageNetILSVRC)中取得了压倒性胜利,将1000类图像的Top-5分类错误率降低到15.315%。在这次比赛中,获得第二、三、四名的团队均采用了传统机器学习算法。三个团队的Top-5图像分类错误率分别是26.17%、26.98%和27.06%,相差不到1个百分点,而他们的成绩和第一名相比却低了超过10个百分点,差距十分明显。当前,深度卷积神经网络(DeepCNN)相对传统机器学习算法的优势还在不断扩大,传统学习方法在多个领域已经完全无法与DeepCNN相抗衡。

机器学习算法的基本原理及其本质

在几千年的科学探索与研究中,科学家们提出了许多描述自然界及人类社会中各种事物与现象的数学模型。这些模型主要可以被归纳为以下三大类别。

归纳模型:由少数几个参数(变量)构成,每个变量都具有明确的物理意义。这类模型能够真正揭示被描述对象的本质及规律,许多数学和物理定律都是典型的归纳模型。

预测模型:用一个拥有大量参数的万能函数来拟合用户所提供的训练样本。万能函数的参数一般不具备任何物理意义,模型本身往往只能用来模拟或预测某个特定事物或现象,并不能揭示被描述事物或现象的本质及内在规律。当代的大多数机器学习算法都是构建于预测模型之上的。例如,单隐层全连接神经网络所使用的数学模型是:

上式中,x代表神经网络的输入,代表神经网络的参数集,M是隐层神经元的个数。这个数学模型如同一个橡皮泥,可以通过变换它的参数集被塑造成任何形状。给定一个训练样本集,其中分别代表训练样本i以及人工赋予该样本的标签(标签表示样本的类别或某种属性),通过利用T进行训练,我们就能够得到一个优化的参数集,使神经网络能够很好地拟合训练样本集T。当新的未知样本x出现时,我们就能够利用训练好的神经网络预测出它的标签y。显而易见,神经网络的参数集规模与神经元的数目及输入x的维数成正比,所有参数没有任何物理意义,模型本身也不具备揭示被描述对象的本质及内在规律的能力。

直推模型:没有明确的数学函数,利用所采集的大数据预测特定输入的标签。此类模型认为针对某个事物或现象所采集的大数据就是对该事物或现象的客观描述。大数据的规模越大,对事物或现象的描述就越全面和准确。当新的未知样本x出现时,我们可以在大数据中找到x的K近邻,根据K近邻的标签或属性来决定x的标签或属性。显而易见,由于不需要定义明确的数学模型,与其它模型相比,直推模型最简单直接,但因为依靠大数据来决定未知样本的标签,直推模型往往需要较高的计算量及使用成本。同样,直推模型也不能被用来揭示事物或现象的本质及内在规律。

应当指出,随着互联网用户数量的不断增长以及互联网技术的快速进步,利用互联网获取内容或用户大数据变得越来越简单廉价,利用直推模型来预测某个事物或现象也变得越来越普及。例如,许多互联网搜索引擎利用每个网页的用户点击率来改进搜索网页的排序精度,就是直推模型在互联网内容搜索领域的一个成功应用。

综上所述,机器学习算法的本质就是选择一个万能函数建立预测模型。利用用户提供的训练样本对模型进行训练的目的,就是选择最优的参数集,使模型能够很好地拟合训练样本集的空间分布。通过训练得到的预测模型,实际上把训练样本集的空间分布提取出来并编码到其庞大的参数集中。利用这个训练好的预测模型,我们就能够预测新的未知样本x的标签或属性。当今大多数机器学习算法都是基于这个原理,谷歌公司的AlphaGo也不例外。

针对某个事物或现象所采集的训练样本,是对该事物或现象的直观描述,蕴藏着大量与之相关的先验知识。例如,ImageNetILSVRC国际图像内容分类比赛所提供的训练样本集拥有1000类、总共一百多万张彩色图像。每一类都对应自然界中的一种常见物体,如汽车、飞机、狗、鸟,等等,包含大约1000张从不同场景及不同角度拍摄的该种物体的彩色图像。利用这个训练样本集训练出来的深度卷积神经网络,实际上是将每类物体的共性特征及个体差异等进行信息提取与编码,并记忆到其庞大的参数集中。当新的未知图像出现时,神经网络就能够利用已编码到参数集中的这些先验知识,对输入图像进行准确的识别与分类。

同样,谷歌公司在训练AlphaGo时,收集了20万个职业围棋高手的对局,再利用AlphaGo不同版本间的自我对弈生成了3000多万个对局。3000多万个围棋对局包含了人类在围棋领域所积累的最为丰富和全面的知识与经验。当新的棋局出现时,AlphaGo利用被编码于其庞大参数集中的这些先验知识,预测出胜率最高的一步棋,以及这步棋所产生的最终胜率。由于AlphaGo针对3000多万个对局进行了学习与编码,它对每一步棋的胜负判定甚至比九段棋手还要准,人类棋圣输给AlphaGo也就不足为奇了。

人类智能的本质与特性

对于人脑及其高度复杂的智能,人类至今还所知甚少。关于“智能”这个名词的科学定义,学术文献中就存在着许多个版本。即使是少数几个被深入研究的认知功能(如人脑的视觉认知功能)的工作机理,也还存在着各种各样的假说和争议。在这里,我们列出若干较具代表性、认可度相对较高的关于人脑智能的假说及阐述。

人类智能的本质是什么?这是认知科学的基本任务,也是基础科学面临的四大难题(Simon)中最后、最难解决的一个。每门基础科学都有其特定的基本单元,例如高能物理学的基本粒子,遗传学的基因、计算理论的符号、信息论的比特等。因此,“人类智能的本质是什么”这个问题在某种程度上取决于“什么是认知基本单元”。众所周知,适合描述物质世界的变量并不一定适合描述精神世界。因此,认知基本单元是什么这个问题,不能靠物理的推理或计算的分析来解决,根本上只有通过认知科学的实验来回答。大量实验结果显示,认知基本单元不是计算理论的符号,也不是信息论的比特,而是知觉组织形成的“知觉物体”。例如,实验表明,当人的视觉系统注意一只飞鸟的时候,它所注意的是整只鸟(即一个知觉物体),而不是鸟的某个特性(形状、大小、位置等)。尽管在飞行过程中鸟的各种特征性质在改变,但它是同一个知觉物体的性质始终保持不变。诺奖得主Kahneman认为,知觉物体概念的直觉定义正是在形状等特征性质改变下保持不变的同一性。中科院陈霖院士领导的团队在发展了30多年的拓扑性质知觉理论的基础上,提出大范围首先的知觉物体拓扑学定义:知觉物体的核心含义,即在变换下保持不变的整体同一性,可以被科学准确地定义为大范围拓扑不变性质。应当指出,上述大范围首先知觉物体的概念,与人工智能领域广为认同与采纳的由局部到整体,由特征到物体,由具体到抽象的认知计算模型是完全背道而驰的,因而在人工智能领域并没有得到足够的重视及应用。

大量认知科学领域的实验研究表明,人类智能具有以下几个特性。

人类智能的目标不是准确。人类智能并不追求在精神世界里客观准确地再现物理世界。上帝设计人类智能时,不假思索地直奔“生存”这一终极目标而去:用最合理的代价,获取最大的生存优势。人类大脑的平均能耗大约只有20瓦,相对于庞大的计算机系统来说只是九牛一毛。尽管人脑的重量只有1400克左右,约占人体重量的2.3%,但它的血液供应量却占到了全身的15.20%,耗氧量超过全身的20%,对于人类已经接近其生理可以负担的极限。在这种资源极其有限的条件下,人脑通过以下几种方式实现了最有效的资源调配,由此来保障最有意义的生理和智能活动。

第一,主观能动的选择性。精神世界不是对物理世界的简单映射,而是非常扭曲和失真的。体积相对较小的手指、舌头等重点区域,在感觉运动中枢里却占据大部分的皮层区域。同样,在视觉上只有对应中央视野的视网膜具有很高的空间、颜色分辨率,而更广泛的外周视野只对物体的突然出现或消失,以及物体的运动更敏感。人类视觉处理的通常方式是,外周视野的显著变化会在第一时间被捕获,做出应激反应,然后再把中央视野移动到目标上进行后续的处理。

人类通过知觉组织的选择性注意机制,直接感知输入信号中的大范围不变性质,而忽略大量的局部特征性质。大量视而不见的现象,在实验室研究中表现为注意瞬脱、变化盲视等等。比如,尽管可以清晰地分辨出霓虹灯中的色块颜色、形状各不相同,甚至在空间和时间上都不连续,人脑仍然把这些色块看成是同一个物体,从而产生运动的感觉。研究表明,这种运动错觉本质上不是运动,其生态意义在于对知觉对象进行不变性抽提。另一方面,人脑会主动把忽略的部分补充回来。而通过经验知识,上下文关系等补充回来的信息,难免有错。所谓错觉就是精神世界和物理世界的错位。这些错觉的生态意义在于在有限资源条件下,快速直接地形成稳定的感知。这种机制既是人类天马行空的联想能力和创造力的源泉,同时也是各种精神心理疾患的生物学基础。

第二,模块化的层次结构和分布式表征。当前认知科学越来越依赖于脑成像技术的发展。功能模块化假设认为,大脑是由结构和功能相对独立、专司特定认知功能的多个脑区组成。这些模块组成复杂的层次结构,通过层次间的传递和反馈实现对输入信号的主动调节。大量脑成像的研究实验也支持了这一假设,特别是视觉研究发现了非常详细而复杂的功能模块及其层次结构。另一方面,分布式表征的假说认为,认知功能的神经机制是相对大范围的分布式脑状态,而不是特定脑区的激活与否。当前研究认为,人脑是模块化和分布式表达共存的自能系统。

第三,反应性活动和内生性活动。人脑不是一个简单的刺激—反应系统,大量的内生性活动甚至比反应性活动还多。人脑在所谓的静息状态下的耗氧量与任务状态下相比差别很小。然而几乎所有的经典认知科学研究都是建立在刺激反应实验范式的基础之上。这种实验范式是让实验对象在特定的条件下完成特定的认知任务,收集并分析实验对象的行为或生理反应,通过对实验数据的充分比照,建立人脑某种活动模式或认知机理的假设。内生性活动因其往往只能通过内省的方式进行研究,而被长期排除在认知科学的研究主流之外。随着脑成像技术的发展,功能连接成为分析静息态大脑自发活动的有力工具。特别是默认网络的发现,创立了强调内生性活动的全新脑功能成像研究范式。默认网络被认为涉及警觉状态、自我意识、注意调控以及学习记忆等心理认知过程,已被广泛应用于社会认知、自我、注意、学习、发育、衰老机制的研究,有力推动了各种脑生物指标的完善和脑疾病的治疗,这些疾病包括阿尔兹海默病、帕金森病、抑郁症、精神分裂症和自闭症等等。

因此,整合现有研究中有关分布式表达和内生性活动的最新研究成果,可能会带来对人脑活动模式(人类智能的物质基础)一种全新的理解。

人类智能的本质不是计算。人类智能体现在对外部环境的感知、认知、对所观察事物或现象的抽象、记忆、判断、决策等。然而,这些智能并不是人类所独有。许多高等动物,如狗、猴子、猩猩,也或多或少具有类似的能力。同时,计算并不是人类智能的强项。真正将人类与其它动物区分开来的,是人类的逻辑推理能力、想象力、创造力以及自我意识。人类利用这类能力能够想象并且创造出自然界中不存在的东西,如汽车、飞机、电视、计算机、手机,互联网。这类能力是推动人类社会不断发展与进步的源泉,是生物智能的圣杯。

而对代表生物智能最高水平的上述能力,人类目前还所知甚少,对其机理的研究还处于启蒙阶段。研究表明,这些能力不是依靠计算得来的,而似乎是与联想记忆及人类丰富的精神世界有关。基于脑信号的分析实验发现,人脑的海马回、海马旁回、杏仁核等脑区中存在着大量专司特定联想记忆的神经细胞。例如,上述脑区中存在单个或一小簇神经细胞,会被与美国前总统克林顿相关的所有刺激信号所激活,无论刺激信号是关于克林顿的图片,还是Clinton这个英语单词,还是克林顿本人的语音回放。显然,这些神经细胞并不是被某个模态的特定特征所激活,它们所对应的是克林顿这个抽象概念。此外,脑成像研究表明,围棋专业棋手相对于业余棋手更多的是依赖联想记忆系统,而非逻辑推理来下棋。实际上,围棋界训练棋手的最常用方法就是将高手对局中的关键部分拆解成许多死活题,棋手通过大量死活题的解题训练来提高自己联想记忆的经验和效率。

机器智能与人类智能的优势与劣势

当代的计算机拥有强大的存储与运算能力。伴随着计算技术的不断发展与进步,这些能力的增长似乎还远没有到达尽头。早在1997年,IBM的“深蓝”超级电脑就战胜了国际象棋冠军卡斯帕罗夫。但这次胜利在人工智能领域并没有产生太大的反响,原因在于,“深蓝”几乎纯粹是依靠强大的运算能力遍历所有的可能性,利用“蛮力”取胜的。“深蓝”所遵循的,就是“人工智能即是计算加记忆”这个简单法则。由于围棋的搜索空间比国际象棋大很多,“深蓝”的这种制胜策略针对围棋是行不通的。与“深蓝”相比,AlphaGo的最大进步就是从“计算加记忆”进化到“拟合加记忆”法则。它利用深度卷积神经网络这个万能函数,通过学习来拟合两千多年来人类所积累的全部经验及制胜模式,并将其编码到神经网络的庞大参数集中。对于当前棋局的任何一个可能的落子,训练好的神经网络都能够预测出它的优劣,并通过有限数量的模拟搜索,计算出最终的获胜概率。这样的战略不需要对棋局的所有可能性做遍历搜索,更像人类棋手所使用的策略。然而,由于AlphaGo对每个落子以及最终胜率的预测,是建立在围棋界两千多年来所形成的完整知识库之上的,它的预测比人类最优秀的棋手更准确。与其说李世石输给了机器系统,不如说输给了人类棋艺的集大成者。由此推断,AlphaGo取胜也是情理之中的事。

与机器相比,人类智能的最大优势当属它的逻辑推理能力、想象力、创造力及其高效性。人脑功耗只有20多瓦,处理许多感知及认知任务(如图像识别、人脸识别、语音识别等)的精度与拥有庞大内存、运算速度达到万亿次的超级电脑相比却毫不逊色。尽管机器智能很可能在不远的将来在类竞赛中全面超越人类,但现有的机器学习框架并不能模拟出人类的想象力和创造力。因此,在当前情况下,机器智能全面超越人类智能的预测是不会成为现实的。

卷积神经网络的好处范文篇2

关键词:卷积神经网络;语言模型;分析

1卷积神经网络语言模型

CNN语言模型基本结构包括输入层、卷积层、池化层及后续的分类层。输入层是表示语言的矩阵,该矩阵可以是通过Googleword2vec或GloVe预训练得到的词嵌入表示,也可以是从原始数据重新训练的语言的向量表示。输入层之后是通过线性滤波器对输入矩阵进行卷积操作的卷积层。在NLP问题中,输入矩阵总是带有固定顺序的结构,因为矩阵的每一行都表示离散的符号,例如单词或者词组等。因此,使用等宽的滤波器是非常合理的设置。在这种设置下,仅需要考虑滤波器的高度既可以实现不同尺寸的滤波器做卷积操作。由此可知,在处理NLP问题时,卷积神经网络的滤波器尺寸一般都是指滤波器的高度。

然后,将卷积层输出的特征映射输入池化层,通过池化函数为特征映射进行降维并且减少了待估计参数规模。一般的,CNN池化操作采用1-max池化函数。该函数能够将输入的特征映射统一生成维度相同的新映射。通过池化操作,可以将卷积层生成的特征连接成更抽象的高级特征,所得到的高级特征尺寸与输入的句子不再存在直接关系。

最后,将得到的高级特征输入softmax分类层进行分类操作。在softmax层,可以选择应用dropout策略作为正则化手段,该方法是随机地将向量中的一些值设置为0。另外还可以选择增加l2范数约束,l2范数约束是指当它超过该值时,将向量的l2范数缩放到指定阈值。在训练期间,要最小化的目标是分类的交叉熵损失,要估计的参数包括滤波器的权重向量,激活函数中的偏置项以及softmax函数的权重向量。

2卷积神经网络语言模型应用分析

CNN语言模型已经广泛应用于诸如文本分类,关系挖掘以及个性化推荐等NLP任务,下面将对这些应用进行具体的介绍与分析。

2.1CNN在文本分类中的应用分析

kim提出了利用CNN进行句子分类的方法。该方法涉及了较小规模的参数,并采用静态通道的CNN实现了效果很优异的句子分类方法。通过对输入向量的调整,进一步提高了性能实现了包括情感极性分析以及话题分类的任务。在其基础上为输入的词嵌入设计了两种通道,一种是静态通道,另一种是动态通道。在卷积层每一个滤波器都通过静态与动态两种通道进行计算,然后将计算结果进行拼接。在池化层采用dropout正则化策略,并对权值向量进行l2约束。最后将该算法应用于MR、SST-1与SST-2、Subj、TREC、CR以及MPQA等数据集。MR数据集为电影评论数据集,内容为一句话的电影评论,其分类包括积极情感极性与消极情感极性两类。SST-1与SST-2数据集为斯坦福情感树库是MR数据集的扩展,但该数据集已经划分好了训练集、验证集及测试集并给出了细粒度的标记,标记包括非常积极、积极、中性、消极、非常消极等情感极性。Subj数据集为主观性数据集,其分类任务是将句子分为主观句与客观句两类。TREC数据集为问题数据集,其分类任务是将所有问题分为六类,例如关于数字、人物或位置等信息的问题。CR数据集为评论数据集,包括客户对MP3、照相机等数码产品的评论,其分类任务是将其分为积极评价与消极评价两类。MPQA数据集是意见极性检测任务数据集。通过实验证明,该方法在这几个典型数据集上都能取得非常优异的效果。

2.2CNN在关系挖掘中的应用分析

Shen等人提出了一种新的潜在语义模型,以词序列作为输入,利用卷积-池化结构为搜索查询和Web文档学习低维语义向量表示。为了在网络查询或网络文本中捕捉上下文结构,通过输入单词序列上下文时间窗口中的每个单词来获取词汇级的n-gram语法特征,将这些特征聚合成句子级特征向量。最后,应用非线性变换来提取高级语义信息以生成用于全文字符串的连续向量表示。该模型的不同之处在于,输入层与卷积层之间加入了word-n-gram层与letter-trigram层,它们能够将输入的词序列转变为letter-trigram表示向量。在卷积层通过上下文特征窗口发现相邻单词的位置特征,并变现为n-gram形式。然后通过max池化将word-n-gram特征合并为句子级的高级特征。在池化层之后增加了语义层来提取更高级的语义表示向量。

2.3CNN在个性化推荐中的应用分析

Weston等人提出了一种能够利用标签(hashtag)有监督的学习网络帖子短文本特征表示的卷e嵌入模型(ConvolutionalEmbeddingModel)。该方法利用提出的CNN模型在55亿词的大数据文本上通过预标注的100,000标签进行训练。该方法除了标签预测任务本身能取得好的效果外,学习到的特征对于其它的文本表示任务也能起到非常有效的作用。该模型与其它的词嵌入模型类似,输入层为表示文本的矩阵,但是,在用查找表表示输入文本的同时将标签也使用查找表来表示。对于给定的文档利用10万条最频繁出现的标签通过评分函数对任何给定的主题标签进行排序。

其中,econv(w)表示CNN的输入文档,elt(t)是候选标签t的词嵌入表示。因此,通过对分数f(w,t)进行排序可以获取所有候选主题标签中排序第一的话题进行推荐。实验数据集采用了两个大规模语料集,均来自流行的社交网络文本并带有标签。第一个数据集称作people数据集,包括搜集自社交网络的2亿1000万条文本,共含有55亿单词。第二个数据集被称作pages,包括3530万条社交网络文本,共含有16亿单词,内容包括企业、名人、品牌或产品。

3结束语

卷积神经网络应用于语言模型已经取得了非常大的发展,对于自然语言处理中的各项任务均取得了优异的结果。本文通过对几项典型工作的分析,探讨了不同卷积神经网络模型结构在不同任务中的表现。通过综合分析可以得出以下结论。首先,CNN的输入采用原始数据训练的向量表示一般效果会优于预训练的词嵌入表示;其次,在卷积层滤波器的尺寸一般采用宽度与输入矩阵宽度相等的设置;最后,为了优化结果可以采用dropout正则化处理。

卷积神经网络的好处范文篇3

【关键词】深度神经网络序列到序列网络卷积网络对抗式生成网路

1深度神经网络起源

人工神经网络(ArtificialNeuralNetworks,ANN)研究是人工智能领域的一个重要分支,在对生物神经网络结构及其机制研究的基础上,构建类似的人工神经网络,使得机器能直接从大量训练数据中学习规律。其研究最早可以追溯到1957年FrankRosenblatt提出的感知机模型,他在《ThePerceptron:AProbabilisticModelforInformationStorageandOrganizationintheBrain》建立了第一个人工神经网络数学模型,19世纪80年代末期反向传播(BackPropagation)算法的发明更是带来了ANN的学习热潮,但由于理论分析难度较大,训练方法及技巧尚不成熟,计算机运算能力还不够强大,这个时期ANN结构较为简单,大部分都可等价为单隐层神经网络,主要是进行浅层学习(ShallowLearning)研究。

2006年GeoffreyHinton在《AFastLearningAlgorithmforDeepBeliefNets》中提出了逐层贪婪预训练(layerwisegreedypretraining),显著提高了MNIST手写数字识别的准确率,开创了深度学习的新方向;随后又在《ReducingtheDimensionalityofDatawithNeuralNetworks》中提出了deepautoencoder结构,在图像和文本降维实验上明显优于传统算法,证明了深度学习的正确性。以这两篇论文为开端,整个学术界掀起了对深度学习的研究热潮,由于更多的网络层数和参数个数,能够提取更多的数据特征,获取更好的学习效果,ANN模型的层数和规模相比之前都有了很大的提升,被称之为深度神经网络(DeepNeuralNetworks,DNN)。

2深度神经网络的现代应用

2010年以来,随着理论不断创新和运算能力的增长,DNN被应用到许多领域并取得了巨大的成功。2011年微软和谷歌的研究员利用DNN将语音识别的错误率降低了20%~30%;2012年在ImageNet图像识别挑战赛(ILSVRC2012)中DNN更是将识别错误率从26%降到了15%;2016年3月DeepMind团队研发的围棋软件AlphaGO以4:1的巨大优势战胜了世界围棋冠军李世石,2017年1月初AlphaGO的升级版Master以60:0的战绩击败了数十位中日韩围棋高手。当前对DNN的研究主要集中在以下领域:

2.1语音识别领域

微软研究院语音识别专家邓立和俞栋从2009年开始和深度学习专家GeofferyHinton合作,并于2011年宣布推出基于DNN的识别系统,彻底改变了语音识别的原有技术框架;2012年11月,百度上线了第一款基于DNN的语音搜索系统,成为最早采用DNN技术进行商业语音服务的公司之一;2016年微软使用循环神经网络语言模型(RecurrentNeuralNetworkbasedLanguageModeling,RNN-LM)将switchboard的词识别错误率降低到了6.3%。

2.2图像识别领域

早在1989年,YannLeCun和他的同事们就提出了卷积神经网络(ConvolutionNeuralNetworks,CNN)结构。在之后的很长一段时间里,CNN虽然在诸如手写数字问题上取得过世界最好的成功率,但一直没有被广泛应用。直到2012年10月,GeoffreyHinton在ILSVRC2012中使用更深的CNN将错误率从26%降到15%,业界才重新认识到CNN在图像识别领域上的巨大潜力;2012年谷歌宣布基于CNN使得电脑直接从一千万张图片中自发学会猫脸识别;2013年DNN被成功应用于一般图片的识别和理解;2016年DeepMind团队基于CNN研发了围棋AI,并取得了巨大成功。

2.3自然语言处理领域

2003年YoshuaBengio等人提出单词嵌入(wordembedding)方法将单词映射到一个矢量空间,然后用ANN来表示N-Gram模型;2014年10月NEC美国研究院将DNN用于自然语言处理(Naturallanguageprocessing,NLP)的研究工作,其研究员RonanCollobert和JasonWeston从2008年开始采用单词嵌入技术和多层一维卷积的结构,用于POSTagging、Chunking、NamedEntityRecognition、SemanticRoleLabeling等四典型NLP问题;2014年IlyaSutskever提出了基于LSTM的序列到序列(sequencetosequence,seq2seq)网络模型,突破了传统网络的定长输入向量问题,开创了语言翻译领域的新方向;2016年谷歌宣布推出基于DNN的翻译系统GNMT(GoogleNeuralMachineTranslation),大幅提高了翻译的精确度与流畅度。

3深度神经网络常见结构

DNN能够在各领域取得巨大成功,与其模型结构是密不可分的,现代DNN大都可归纳为三种基本结构:序列到序列网络、卷积网络、对抗式生成网络,或由这三种基本网络结构相互组合而成。

3.1序列到序列网络

序列到序列网络的最显著特征在于,它的输入张量和输出张量长度都是动态的,可视为一串不定长序列,相比传统结构极大地扩展了模型的适应范围,能够对序列转换问题直接建模,并以端到端的方式训练模型。典型应用领域有:自动翻译机(将一种语言的单词序列转换为另一种语言的单词序列),语音识别(将声波采样序列转换为文本单词序列),自动编程机研究(将自然语言序列转换为语法树结构),此类问题的特点在于:

(1)输入和输出数据都是序列(如连续值语音信号/特征、离散值的字符);

(2)输入和输出序列长度都不固定;

(3)输入输出序列长度没有对应关系。

其典型如图1所示。

网络由编码器(encoder)网络和解码器网络(decoder)两部分连接构成:

3.1.1编码器网络

编码器网络通常是一个递归神经网络(RecurrentNeuralNetworks,RNN),网络节点一般使用长短期记忆模型(LongShortTermMemory,LSTM)实现,序列中里第t个张量xt的输出yt依赖于之前的输出序列(y0、y1…yt-1),输入序列(x0、x1、x2…)那爸梁笠来问淙胪络,整个序列处理完后得到最终的输出Y以及各层的隐藏状态H。

3.1.2解码器网络

解码器网络是一个与编码器网络结构相同的RNN网络,以解码器的最终输出(Y,H)为初始输入,使用固定的开始标记S及目标序列G当作输入数据进行学习,目标是使得在X输入下Y和G尽量接近,即损失度函数f(X)取得最小值。

解码器网络属于典型的监督学习结构,可以用BP算法进行训练,而编码器网络的输出传递给了解码器网络,因此也能同时进行训练。网络模型学习完毕后,将序列X输入编码器,并将起始标记S输入解码器,网络就会给出正确的对应序列。

3.2卷积神经网络

卷积神经网络将传统图像处理的卷积运算和DNN相结合,属于前馈神经网络,是在生物视觉皮层的研究基础上发展而来的,在大型图像处理上有出色表现。CNN一般由多个结构相似的单元组成,每个单元包含卷积层(convolutionlayer)和池化层(poolinglayer),通常网络末端还连接全联通层(fully-connectedlayer,FC)及Softmax分类器。这种结构使得CNN非常适合处理二维结构数据,相比其它DNN在图像处理领域上具有天然优势,CNN的另一优势还在于,由于卷积层共享参数的特点,使得它所需的参数数量大为减少,提高了训练速度。其典型结构如图2所示:

3.2.1卷积层(Convolutionallayer)

卷积层由若干卷积核构成,每个卷积核在整个图像的所有通道上同时做卷积运算,卷积核的参数通过BP算法从训练数据中自动获取。卷积核是对生物视觉神经元的建模,在图像局部区域进行的卷积运算实质上是提取了输入数据的特征,越深层的卷积层所能提取到的特征也越复杂。例如前几个卷积层可能提取到一些边缘、梯度、线条、角度等低级特征,后续的卷积层则能认识圆、三角形、长方形等稍微复杂的几何概念,末尾的卷积层则能识别到轮子、旗帜、足球等现实物体。

3.2.2池化层(Poolinglayer)

池化层是卷积网络的另一重要部分,用于缩减卷积层提取的特征图的尺寸,它实质上是某种形式的下采样:将图像划分为若干矩形区块,在每个区块上运算池化函数得到输出。有许多不同形式的池化函数,常用的有“最大池化”(maxpooling,取区块中数据的最大值)和“平均池化”(averagepooling,取区块中数据的平均值)。池化层带来的好处在于:

(1)减小了数据尺寸,降低参数的数量和计算量;

(2)模糊了各“像素”相对位置关系,泛化了网络识别模式。

但由于池化层过快减少了数据的大小,导致,目前文献中的趋势是在池化运算时使用较小的区块,甚至不再使用池化层。

3.3生成式对抗网络(GenerativeAdversarialNetwork,GAN)

生成式对抗网络最初由Goodfellow等人在NIPS2014年提出,是当前深度学习研究的重要课题之一。它的目的是收集大量真实世界中的数据(例如图像、声音、文本等),从中学习数据的分布模式,然后产生尽可能逼真的内容。GAN在图像去噪,修复,超分辨率,结构化预测,强化学习中等任务中非常有效;另一重要应用则是能够在训练集数据过少的情况下,生成模拟数据来协助神经网络完成训练。

3.3.1模型结构

GAN网络典型结构如图3所示,一般由两部分组成,即生成器网络(Generator)和识别器网络(Discriminator):

(1)生成器网络的目标是模拟真实数据的分布模式,使用随机噪声生成尽量逼真的数据。

(2)识别器的目标是学习真实数据的有效特征,从而判别生成数据和真实数据的差异度。

3.3.2训练方法

GAN采用无监督学习进行训练,输入向量z一般由先验概率概率pz(z)生成,通过生成器网络产生数据G(z)。来自训练集的真实数据的分布为pdata(x),GAN网络的实质是学习该特征分布,因此生成的数据G(z)必然也存在对应的分布pg(z),而识别器网络则给出数据来自于真实数据的概率D(x)以及D(G(z))。整个训练过程的实质就是生成器网络和识别器网络的博弈过程,即找到

4深度神经网络研究展望

DNN虽然在各大领域都取得了重大的成功,甚至宣告了“智能时代”的来临,但是与人类大脑相比,DNN在许多方面仍有显著差距:

4.1识别对抗样本的挑战

对抗样本是指在数据集中添加微小的扰动所形成的数据,这些数据能使网络以极高的置信度做出错误的判别。在网络实际使用过程中会带来非常大的问题,比如病毒制造者可能刻意构造样本来绕过基于DNN的安全检查网络。部分研究指出问题的根因可能在于DNN本身的高度非线性,微小的扰动可能在输出时产生巨大的差异。

4.2构造统一模型的挑战

DNN虽然在很多领域都取得了巨大的成功,但无论是序列到序列网络、卷积网络、还是对抗式生成网络都只适应于特定领域,与此相对的则是,人类只用一个大脑就能完成语音、文本、图像等各类任务,如何构建类似的统一模型,对整个领域都是极大的挑战。

4.3提高训练效率的挑战

DNN的成功依赖于大量训练数据,据统计要使得网络学会某一特征,平均需要50000例以上的样本,相比而言人类只需要少量的指导即可学会复杂问题,这说明我们的模型和训练方法都还有极大的提高空间。

参考文献

[1]ROSENBLATTF.Theperceptron:aprobabilisticmodelforinformationstorageandorganizationinthebrain[M].MITPress,1988.

[2]HINTONGE,OSINDEROS,TEHYW.Afastlearningalgorithmfordeepbeliefnets[J].NeuralComputation,1989,18(07):1527-54.

[3]HINTONGE,SALAKHUTDINOVRR.ReducingtheDimensionalityofDatawithNeuralNetworks[J].Science,2006,313(5786):504.

[4]SEIDEF,LIG,YUD.ConversationalSpeechTranscriptionUsingContext-DependentDeepNeuralNetworks;proceedingsoftheINTERSPEECH2011,ConferenceoftheInternationalSpeechCommunicationAssociation,Florence,Italy,August,F,2011[C].

[5]OQUABM,BOTTOUL,LAPTEVI,etal.LearningandTransferringMid-levelImageRepresentationsUsingConvolutionalNeuralNetworks;proceedingsoftheComputerVisionandPatternRecognition,F,2014[C].

[6]SILVERD,HUANGA,MADDISONCJ,etal.MasteringthegameofGowithdeepneuralnetworksandtreesearch[J].Nature,2016,529(7587):484.

[7]XIONGW,DROPPOJ,HUANGX,etal.TheMicrosoft2016ConversationalSpeechRecognitionSystem[J].2016.

[8]LECUNY,BOTTOUL,BENGIOY,etal.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278-324.

[9]BENGIOY,DELALLEAUO,LERN,etal.LearningeigenfunctionslinksspectralembeddingandkernelPCA[J].NeuralComputation,2004,16(10):2197-219.

[10]LEGRANDJ,COLLOBERTR.RecurrentGreedyParsingwithNeuralNetworks[J].LectureNotesinComputerScience,2014,8725(130-44.

[11]SUTSKEVERI,VINYALSO,LEQV.SequencetoSequenceLearningwithNeuralNetworks[J].AdvancesinNeuralInformationProcessingSystems,2014,4(3104-12.

[12]WUY,SCHUSTERM,CHENZ,etal.Google'sNeuralMachineTranslationSystem:BridgingtheGapbetweenHumanandMachineTranslation[J].2016.

[13]GOODFELLOWIJ,POUGETABADIEJ,MIRZAM,etal.GenerativeAdversarialNetworks[J].AdvancesinNeuralInformationProcessingSystems,2014,3(2672-80.

作者挝

你会喜欢下面的文章?

    那一刻我长大了五年级作文500字(精

    - 阅1

    《那一刻,我长大了》五年级作文【篇1】在我的印象中,妈妈一直是年轻漂亮的,直到四年级时的一个双休日,我才明白妈妈有多辛苦。那天,爸爸有事出去了。妈妈突然发起了高烧,看着难受.....

    我们的乐园作文精选400字(整理4篇)

    - 阅0

    我们的乐园作文精选400字篇1我的托教就是我的乐园。它位于学校附近的村里,因父母工作繁忙,除了上学我大多数时间都在托教,那里有我很多快乐的时光。我的托教有两个楼层,我们在.....

    九一八事变国旗下的讲话稿精选模板

    - 阅0

    国共两党作为当时中国的两大政党,九一八事变后,民族团结也日益增强,两党的民族使命感迅速增强,两党的再次合作,共同抵抗日本帝国主义的侵略的新局面,实现了民族大团结。下面是小编.....

    防台风安全应急预案精选模板2025

    - 阅0

    短时间的超量降水和持续不断降水,会在局部地区乃至更广阔的地区造成洪涝,既有的水利设施、防汛设施和防汛手段,以及援救手段不足以立刻生效或者立刻实现全面救援。下面是小编为.....

    庐山旅游服务市场调查报告(5篇)

    阅:0

    庐山旅游服务市场调查报告篇1调查方法:抽样调查法调查时间:xx年9月16日至10月1日样本人群:来庐山的游客根据蓝....

    卷积神经网络的好处(收集3篇)

    阅:0

    卷积神经网络的好处范文篇1深度学习卷积神经网络过去几年里,深度学习卷积神经网络所取得的成就足以使它成为....

    重阳节的教案(4篇)

    阅:0

    重阳节的教案篇1教学目标:1、知道爷爷奶奶年纪大了,行动困难,有爱护老人的愿望。2、感受老人对小辈的关爱,树立....